T
نمره بلو ۲
S

جفت جملات موازی استخراج شده
فرایند ارزیابی جفت جملات موازی استخراج شده
فصل پنجم
ارزیابی و نتیجه گیری
ارزیابی و نتیجه گیری
ارزیابی طبقه‌بند آنتروپی بیشینه
همانطور که در فصل قبل آمد ما از طبقه‌بند آنتروپی بیشینه برای تشخیص جفت جملات موازی از بین جفت جملات کاندید استفاده کردیم. در این بخش می‌خواهیم طبقه‌بند آنتروپی بیشینه و ویژگی‌های ارائه شده برای آن را ارزیابی کنیم. ارزیابی این بخش شامل تجربیات و آزمایشات مدل ارائه شده برای استخراج جفت جملات موازی از پیکره تطبیقی نمی‌شود.

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

طبقه‌بند آنتروپی بیشینه طراحی شده مستقل از زبان است، یعنی جفت جملات مورد استفاده می‌توانند از هر جفت زبان دلخواهی باشند. در اینجا، آزمایشات بر روی جفت زبان فارسی-انگلیسی انجام می‌شود. داده‌های مورد استفاده در آزمایشات از پیکره موازی انگلیسی-فارسی «میزان» [۷] و همچنین پیکره موازی انگلیسی-فارسی تهران به نام «TEP» [۱۰] گرفته شده‌اند. برای تولید جفت جملات غیر موازی هر کدام از جملات مبدأ در پیکره موازی، به صورت تصادفی با یک جمله از طرف مقصد (به جز جمله همتراز با آن) جفت شدند.
ارزیابی ویژگی‌ها
هر کدام از ویژگی‌هایی که برای یک جفت جمله در نظر گرفته شد تأثیر متفاوتی بر کیفیت طبقه‌بند آنتروپی بیشینه می‌گذارند. برای ارزیابی میزان تأثیرگذاری هر یک از این ویژگی‌ها بر طبقه‌بند، مجموعه ویژگی‌های متفاوتی را در نظر گرفته و به ازای هر مجموعه ویژگی یک ارزیابی روی طبقه‌بند انجام دادیم. این مجموعه ویژگی‌ها در جدول ۵-۱ آمده‌اند
.
مجموعه ویژگی‌ها

مجموعه ویژگی ۱

ویژگی‌های عمومی به جز ویژگی کلمات مشترک

مجموعه ویژگی ۲

ویژگی‌های عمومی به همراه ویژگی کلمات مشترک

مجموعه ویژگی ۳

مجموعه ویژگی ۲ به همراه ویژگی‌های مربوط به کلمات همتراز نشده در همترازی در سطح کلمه بین دو جمله

مجموعه ویژگی ۴

مجموعه ویژگی ۲ به همراه تمام ویژگی‌های مربوط به همترازی در سطح کلمه بین دو جمله

در این قسمت از ۱۰۰۰۰۰ جفت جمله موازی از پیکره میزان و ۱۰۰۰۰۰ جفت جمله غیر موازی که جملات غیر‌ موازی با بهره گرفتن از جملات پیکره میزان و جفت کردن تصادفی آنها به دست آمده‌اند، به عنوان مجموعه داده آموزشی و آزمایشی استفاده می‌شود. ارزیابی‌ها با بهره گرفتن از تکنیک اعتبارسنجی متقابل ۱۰ قسمتی انجام می‌شود. همچنین برای اطمینان بیشتر از صحت نتایج به دست آمده، در ابتدا تمام جفت جمله‌های موازی و غیر موازی با بهره گرفتن از الگوریتم بُرزدن فیشر یاتس، بُرزده می‌شوند. جدول ۵-۲ نتایج ارزیابی ویژگی‌ها را نشان می‌دهد.
ارزیابی مجموعه ویژگی‌ها

دقت

بازخوانی

معیار F

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...