طرح های پژوهشی و تحقیقاتی دانشگاه ها در مورد مدلی کارا برای ساخت پیکره متنی … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
T
نمره بلو ۲
S
جفت جملات موازی استخراج شده
فرایند ارزیابی جفت جملات موازی استخراج شده
فصل پنجم
ارزیابی و نتیجه گیری
ارزیابی و نتیجه گیری
ارزیابی طبقهبند آنتروپی بیشینه
همانطور که در فصل قبل آمد ما از طبقهبند آنتروپی بیشینه برای تشخیص جفت جملات موازی از بین جفت جملات کاندید استفاده کردیم. در این بخش میخواهیم طبقهبند آنتروپی بیشینه و ویژگیهای ارائه شده برای آن را ارزیابی کنیم. ارزیابی این بخش شامل تجربیات و آزمایشات مدل ارائه شده برای استخراج جفت جملات موازی از پیکره تطبیقی نمیشود.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
طبقهبند آنتروپی بیشینه طراحی شده مستقل از زبان است، یعنی جفت جملات مورد استفاده میتوانند از هر جفت زبان دلخواهی باشند. در اینجا، آزمایشات بر روی جفت زبان فارسی-انگلیسی انجام میشود. دادههای مورد استفاده در آزمایشات از پیکره موازی انگلیسی-فارسی «میزان» [۷] و همچنین پیکره موازی انگلیسی-فارسی تهران به نام «TEP» [۱۰] گرفته شدهاند. برای تولید جفت جملات غیر موازی هر کدام از جملات مبدأ در پیکره موازی، به صورت تصادفی با یک جمله از طرف مقصد (به جز جمله همتراز با آن) جفت شدند.
ارزیابی ویژگیها
هر کدام از ویژگیهایی که برای یک جفت جمله در نظر گرفته شد تأثیر متفاوتی بر کیفیت طبقهبند آنتروپی بیشینه میگذارند. برای ارزیابی میزان تأثیرگذاری هر یک از این ویژگیها بر طبقهبند، مجموعه ویژگیهای متفاوتی را در نظر گرفته و به ازای هر مجموعه ویژگی یک ارزیابی روی طبقهبند انجام دادیم. این مجموعه ویژگیها در جدول ۵-۱ آمدهاند
.
مجموعه ویژگیها
مجموعه ویژگی ۱
ویژگیهای عمومی به جز ویژگی کلمات مشترک
مجموعه ویژگی ۲
ویژگیهای عمومی به همراه ویژگی کلمات مشترک
مجموعه ویژگی ۳
مجموعه ویژگی ۲ به همراه ویژگیهای مربوط به کلمات همتراز نشده در همترازی در سطح کلمه بین دو جمله
مجموعه ویژگی ۴
مجموعه ویژگی ۲ به همراه تمام ویژگیهای مربوط به همترازی در سطح کلمه بین دو جمله
در این قسمت از ۱۰۰۰۰۰ جفت جمله موازی از پیکره میزان و ۱۰۰۰۰۰ جفت جمله غیر موازی که جملات غیر موازی با بهره گرفتن از جملات پیکره میزان و جفت کردن تصادفی آنها به دست آمدهاند، به عنوان مجموعه داده آموزشی و آزمایشی استفاده میشود. ارزیابیها با بهره گرفتن از تکنیک اعتبارسنجی متقابل ۱۰ قسمتی انجام میشود. همچنین برای اطمینان بیشتر از صحت نتایج به دست آمده، در ابتدا تمام جفت جملههای موازی و غیر موازی با بهره گرفتن از الگوریتم بُرزدن فیشر یاتس، بُرزده میشوند. جدول ۵-۲ نتایج ارزیابی ویژگیها را نشان میدهد.
ارزیابی مجموعه ویژگیها
دقت
بازخوانی
معیار F
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 03:01:00 ق.ظ ]
|