راهنمای نگارش مقاله با موضوع تشخیص پلاگاریسم به کمک گراف … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
و تعداد مفاهیم جمله i، تعداد مفاهیم نود شاخص موضوعی است. نود شاخص موضوعی با استخراج مفاهیم هر جمله و مجموع آنها در چنین نودی حاصل می شود. هدف اصلی روش ارائه شده این است که نود شاخص ورودی اصلی به گراف و راهنمای سریع به جملات داکیومنت باشد. به عنوان مثال، اگر یک شباهت بین مفهوم۱ در داکیومنت مشکوک و مفهوم۱ در داکیومنت اصلی باشد، ما مستقیما به نودی در داکیومنت اصلی و داکیومنت مشکوک میرویم که شامل مفهوم۱ باشد و سایر جملات را در نظر نمیگیریم. در حالتی که شباهت کامل بین داکیومنت و داکیومنت مشکوک وجود داشته باشد، با مشکل تعداد مقایسههای خیلی زیاد مواجه میشویم. برای حل این مشکل ما فقط نودهای خیلی مهم را وارد مقایسه مینماییم. با توجه با اینکه هر نود دارای تعدادی لینک وارد شونده و تعدادی لینک خارج شونده است در نتیجه شباهت بین هر جمله را با جملههای دیگر داکیومنت محاسبه میکنیم. براساس شباهتها، ما بالاترین درجه شباهت را از بین نودها استخراج میکنیم و بقیهی نودها را در نظر نمیگیریم. برای محاسبه میزان شباهت نود با سایر نودها از فرمول زیر استفاده میکنیم:
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
که تعداد مفاهیم در جمله i ام و تعداد مفاهیم در هر جمله گراف است.
شکل ۴- ۵ : ساختار نود شاخص برای مفاهیم جمله در گراف [۱۱]
۴-۳ استخراج کاندیدا
در صورتی که سایز مجموعه متون مورد بررسی زیاد باشد، از فاز بازیابی کاندیداها استفاده می شود، که در طی آن متون جملات کاندیدا باید به صورت کارآمدی استخراج شوند. در این فاز دقت از اهمیت زیادی برخوردار نیست، زیرا کاندیداها به فاز تحلیل جزئیات فرستاده میشوند. هدف این فاز رسیدن به بالاترین فراخوانی و کاهش فضای مسئله تا حد ممکن است.
شکل ۴- ۶ : فاز بازیابی کاندیدا
۴-۳-۱ شاخصگذاری جمله
تمام جملات مرجع در شکل ۴-۶ به سازندهی شاخص، فرستاده شده اند. هر جمله توسط نام فایل و تعداد آن مشخص می شود. یک جمله توسط عبارات تشکیلدهنده (کلمات کلیدی) ارائه می شود و براساس وزن TF-IDF شاخصگذاری می شود.
۴-۳-۲ استخراج جملات کاندیدا
وقتی یک جمله از ورودی داده می شود و سیستم در حال جستجوی جملات کاندیدایی است که شبیه این جمله هستند، برنامه هر جمله را در شاخص براساس مجموع عبارات منطبق شده رتبه بندی می کند.
چون ممکن است تعداد جملات مرجع بسیار زیاد باشد (متون وب)، n جملهای که بیشترین شباهت را براساس این رتبه بندی دارند استخراج میشوند. بنابراین تحلیل تنها محدود به n زوج جمله در کل مرجع می شود.
۴-۴ تحلیل جزئیات
تحلیل جزئیات، همه متون مربوط به جملات کاندیدا را به صورت دقیق تحلیل می کند و مشخص می کند که آیا متن دزدی هست یا نه. الگوریتم فاصلهی ویرایش گراف به عنوان ابزاری برای اندازه گیری شباهت دقیق بین دو گراف استفاده می شود و یکی از موثرترین بخشها در سیستم تشخیص پلاگاریسم است. ما در ادامه به معرفی یک روش موجود میپردازیم سپس این روش را بهبود داده و نتایج را مورد بررسی و تحلیل قرار خواهیم داد. شکل ۴-۷ جزئیات فاز تحلیل را نمایش میدهد.
شکل ۴- ۷ : فاز تحلیل جزئیات
خروجی تحلیل جزئیات یک فایل برای هر داکیومنت مشکوک است که به قطعه متنهای پلاگاریسم اشاره می کند. الگوریتم این بخش توسط یک مثال عینی و با دو جمله زیر توضیح داده شده است:
بعد از سالها جستجو، ناخدا در جزیره، گنج پیدا کرد. (جمله۱)
گنج توسط ناخدا اسکات بعد از سالها جستجو پیدا شد. (جمله۲)
این جملات نسبتا ساده هستند و بنابراین جزئیات الگوریتم برای فهم سادهتر است. شکل ۴-۸ گراف وابستگی را برای دو جمله را نمایش میدهد.
فاصله ویرایش گراف این دو جمله ۴.۲۵ و با فاصله نرمالسازی ۰.۳۲۷ است. فاصله توسط معادله زیر نرمال می شود، که و تعداد کلمات در هر کدام از جملات است. دلیل انجام نرمالسازی این است که با جملات با سایزهای مختلف بتوان بطور یکسان رفتار کرد [۲۸].
شکل ۴- ۸ : گرافهای وابستگی برای جملات ۱ و ۲
جدول زیر عملیات ویرایش مورد نیاز برای تبدیل جمله ۱ به جمله ۲ را نشان میدهد.
جدول ۴ – ۳ : عملیات ویرایش برای تبدیل جمله ۱ به جمله ۲
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 02:46:00 ق.ظ ]
|