و تعداد مفاهیم جمله­ i، تعداد مفاهیم نود شاخص موضوعی است. نود شاخص موضوعی با استخراج مفاهیم هر جمله و مجموع آنها در چنین نودی حاصل می­ شود. هدف اصلی روش ارائه شده این است که نود شاخص ورودی اصلی به گراف و راهنمای سریع به جملات داکیومنت باشد. به عنوان مثال، اگر یک شباهت بین مفهوم۱ در داکیومنت مشکوک و مفهوم۱ در داکیومنت اصلی باشد، ما مستقیما به نودی در داکیومنت اصلی و داکیومنت مشکوک می­رویم که شامل مفهوم۱ باشد و سایر جملات را در نظر نمی­گیریم. در حالتی که شباهت کامل بین داکیومنت و داکیومنت مشکوک وجود داشته باشد، با مشکل تعداد مقایسه­های خیلی زیاد مواجه می­شویم. برای حل این مشکل ما فقط نودهای خیلی مهم را وارد مقایسه می­نماییم. با توجه با اینکه هر نود دارای تعدادی لینک وارد شونده و تعدادی لینک خارج شونده است در نتیجه شباهت بین هر جمله را با جمله­های دیگر داکیومنت محاسبه می­کنیم. براساس شباهت­ها، ما بالاترین درجه­ شباهت را از بین نودها استخراج می­کنیم و بقیه­ی نودها را در نظر نمی­گیریم. برای محاسبه میزان شباهت نود با سایر نودها از فرمول زیر استفاده می­کنیم:

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

که تعداد مفاهیم در جمله­ i ام و تعداد مفاهیم در هر جمله­ گراف است.
شکل ۴- ۵ : ساختار نود شاخص برای مفاهیم جمله در گراف [۱۱]
۴-۳ استخراج کاندیدا
در صورتی که سایز مجموعه متون مورد بررسی زیاد باشد، از فاز بازیابی کاندیداها استفاده می­ شود، که در طی آن متون جملات کاندیدا باید به صورت کارآمدی استخراج شوند. در این فاز دقت از اهمیت زیادی برخوردار نیست، زیرا کاندیداها به فاز تحلیل جزئیات فرستاده می­شوند. هدف این فاز رسیدن به بالاترین فراخوانی و کاهش فضای مسئله تا حد ممکن است.
شکل ۴- ۶ : فاز بازیابی کاندیدا
۴-۳-۱ شاخص­گذاری جمله
تمام جملات مرجع در شکل ۴-۶ به سازنده­ی شاخص، فرستاده شده ­اند. هر جمله توسط نام فایل و تعداد آن مشخص می­ شود. یک جمله توسط عبارات تشکیل­دهنده (کلمات کلیدی) ارائه می­ شود و براساس وزن TF-IDF شاخص­گذاری می­ شود.
۴-۳-۲ استخراج جملات کاندیدا
وقتی یک جمله از ورودی داده می­ شود و سیستم در حال جستجوی جملات کاندیدایی است که شبیه این جمله هستند، برنامه هر جمله را در شاخص براساس مجموع عبارات منطبق شده رتبه ­بندی می­ کند.
چون ممکن است تعداد جملات مرجع بسیار زیاد باشد (متون وب)، n جمله­ای که بیشترین شباهت را براساس این رتبه ­بندی دارند استخراج می­شوند. بنابراین تحلیل تنها محدود به n زوج جمله در کل مرجع می­ شود.
۴-۴ تحلیل جزئیات
تحلیل جزئیات، همه متون مربوط به جملات کاندیدا را به صورت دقیق تحلیل می­ کند و مشخص می­ کند که آیا متن دزدی هست یا نه. الگوریتم فاصله­ی ویرایش گراف به عنوان ابزاری برای اندازه ­گیری شباهت دقیق بین دو گراف استفاده می­ شود و یکی از موثرترین بخش­ها در سیستم تشخیص پلاگاریسم است. ما در ادامه به معرفی یک روش موجود می­پردازیم سپس این روش را بهبود داده و نتایج را مورد بررسی و تحلیل قرار خواهیم داد. شکل ۴-۷ جزئیات فاز تحلیل را نمایش می­­دهد.
شکل ۴- ۷ : فاز تحلیل جزئیات
خروجی تحلیل جزئیات یک فایل برای هر داکیومنت مشکوک است که به قطعه متن­های پلاگاریسم اشاره می­ کند. الگوریتم این بخش توسط یک مثال عینی و با دو جمله­ زیر توضیح داده شده است:
بعد از سالها جستجو، ناخدا در جزیره، گنج پیدا کرد. (جمله۱)
گنج توسط ناخدا اسکات بعد از سالها جستجو پیدا شد. (جمله۲)
این جملات نسبتا ساده هستند و بنابراین جزئیات الگوریتم برای فهم ساده­تر است. شکل ۴-۸ گراف وابستگی را برای دو جمله را نمایش می­دهد.
فاصله ویرایش گراف این دو جمله ۴.۲۵ و با فاصله نرمالسازی ۰.۳۲۷ است. فاصله توسط معادله­ زیر نرمال می­ شود، که و تعداد کلمات در هر کدام از جملات است. دلیل انجام نرمالسازی این است که با جملات با سایزهای مختلف بتوان بطور یکسان رفتار کرد [۲۸].
شکل ۴- ۸ : گراف­های وابستگی برای جملات ۱ و ۲
جدول زیر عملیات ویرایش مورد نیاز برای تبدیل جمله ۱ به جمله­ ۲ را نشان می­دهد.
جدول ۴ – ۳ : عملیات ویرایش برای تبدیل جمله ۱ به جمله ۲

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...