۱۸۵

Database

۴۹۴۵

۳۷

Readability-Visual

۴۹۷۸

۴

Readability-Language

جدول ۳-۳ : توزیع برچسب ها در مجموعه داده DC2010 ]48[
۳-۲-مطالعات مبتنی بر محتوا:
کار اصلی روی الگوریتم های ضد هرزنامه مبتنی بر محتوا توسط فترلی و همکاران انجام شده است. آنها پیشنهاد می کنند که صفحات وب توسط آنالیز آماری تشخیص داده شوند. محققان دریافته اند URL های صفحات هرزنامه تعداد نقطه، خط تیره، ارقام و طول استثنایی دارند. آنها گزارش داده اند که ۸۰ مورد از ۱۰۰ مورد طولانی ترین نام های میزبان به وب سایت های بزرگسالان ارجاع شده است. آنها هم چنین نشان داده اند که صفحات خودشان ماهیت تکثیر دارند. بیشتر صفحات هرزنامه که روی همان میزبان قرار دارند، مغایرت خیلی کمی در تعداد کلمات دارند. یکی از مشاهدات جالب این است که صفحات هرزنامه محتوایشان به سرعت در حال تغییر است. به طور خاص آنها تغییرات هفته به هفته روی تمام صفحات وب روی یک میزبان را مورد مطالعه قرار داده اند و متوجه شده اند که میزبان های هرزنامه تا ۹۷ درصد با این ویژگی قابل کشف هستند ]۴۷[.
در کار دیگر آنها از یک مجموعه داده منتخب که عمده­ی صفحات (حدود ۵۴%) به زبان انگلیسی نوشته ­شده ­اند که توسط کاوشگر نوشته­شده توسط جستجوی MSN تعیین شده­است، استفاده کرده اند. در این مجموعه داده ۲۳۶۴ صفحه، (.۱۳٫۸%) به عنوان هرزنامه برچسب خوردند در حالی که ۱۴۸۰۴(۸۶٫۲%) به­عنوان غیرهرزنامه برچسب خوردند.
به هیوریستیک­های مختلفی جهت تشخیص هرزنامه توسط فترلی و همکاران اشاره شده است از جمله: تعداد کلمات در صفحه، تعداد کلمات در عنوان صفحه، طول میانگین کلمات، مقدار متن Anchor، بخشی از محتوای قابل مشاهده( برای مثال مؤلفه ­هایی نظیر نظرات در بدنه صفحه، یا ویژگی ALT است که به تصاویر اختصاص داده­ شده­است یا برچسب­های META در سرآیند)، قابلیت تراکم­پذیری، بخشی از صفحه برگرفته از لغات عمومی کلی، کسری از کلمات محبوب عمومی، احتمال استقلال n-gram، احتمال شرطی n-grams اشاره شده است. نهایتاً از درخت C4.5 به منظور طبقه بندی استفاده شده است و به منظور افزایش دقت از bagging و boosting استفاده شده است ]۴۹[.

در کار دیگر در آنها محتویات تکراری را مورد مطالعه قرار دادند ]۵۰,۵۱[. متوجه شدند که بزرگترین خوشه ها با محتوای تکراری هرزنامه هستند، برای پیدا کردن خوشه ها ومحتویات تکراری آنها روش shingling مبتنی بر rabin fingerprint را به کار برده اند ]۵۲,۵۳[.
آنها نخست هر کدام از n کلمه را با بهره گرفتن از یک چندجمله ای PA، fingerprint می کنند و سپس هر کدام از نشانه های مرحله نخست را با یک چند جمله ای متفاوت PB با بهره گرفتن از حذف پیشوندها و توسعه تغییرات، fingerprint می کنند، در سومین مرحله آنها m تابع fingerprint متفاوت را برای هر رشته از مرحله اول به کار می برند و کوچکترین مقادیر نتیجه را برای هر کدام از m تابع fingerprint حفظ می کنند. آنها همچنین فهرستی از عبارات محبوب با مرتب کردن سه تایی های (i,s,d) استخراج می کنند و اجراهای طولانی از سه تایی ها با تطبیق دادن مقادیر i و s می گیرند. در ]۴۹[ آنها مطالعات خود را ادامه داده اند و تعدادی از ویژگی های مبتنی بر محتوای دیگر را هم فراهم کرده اند. نهایتاً همه این ویژگی ها در یک مدل طبقه بندی با C4.5، boosting و bagging ترکیب شده اند. مطالعاتی نیز شرح می دهد که چگونه ویژگی های مختلف و مدلهای یادگیری ماشین به منظور کیفیت الگوریتم های کشف هرزنامه با هم ترکیب می شود ]۴۸[.
گروه دیگری به معرفی ویژگی های مبتنی بر ساختار صفحه HTML به منظور شناسایی اسکریپت های تولید شده صفحات هرزنامه پرداخته اند ]۵۵[. ایده اساسی که صفحات اسپم تولید شده ماشین هستند در ]۵۰, ۵۱[ بحث شده است. هر چند که محققین یک گام پیش پردازش را با برداشتن محتوا و نگه داشتن فقط طرح صفحه هم اضافه نموده اند. بنابراین آنها تکرار صفحه را با آنالیز کردن طرح و نه محتوا مطالعه کرده اند.آنها برای پیدا کردن گروه صفحات اسپم تکراری تکنیک انگشت نگاری را به همراه خوشه بندی به کار برده اند ]۵۲,۵۳[.
در کاری دیگر از مدل های زبان[۵۸] برای کشف هرزنامه استفاده شده است. شاخه ای از کشف هرزنامه در بلاگ ها با مقایسه مدلهای زبانی برای نظرات بلاگ و صفحات ارائه شده اند ]۵۶,۵۷[. آنها از واگرایی KL به عنوان یک معیار از اختلاف بین دو مدل زبانی ( توزیع احتمال ) استفاده می کنند] ۹۴[.
(۳-۱)
KL(= log
ویژگی مفید این روش آن است که نیازی به داده های آموزشی ندارد. آنالیزی از ویژگی های زبانی با در نظر گرفتن اعتبار واژگانی، تنوع واژگان و محتوا، تنوع نحوی و آنتروپی، استفاده از صداهای فعال و غیرفعال و سایر ویژگی های زبان های طبیعی (NLP) نیز توسعه داده شده است ]۵۸,۵۹[.
ویژگی هایی بر اساس وقوع کلمات کلیدی روی یک صفحه که ارزش های تبلیغاتی بالا دارند را پیشنهاد می دهد ]۶۰[. در موتورهای جستجو لاگ فایل های پرس و جو و لاگ فایل های کلیک روی تبلیغات آنلاین با توجه به محبوبیت پرس و جو مورد آنالیز قرار گرفته اند ]۶۱[.
استفاده از الگوریتم های یادگیری ماشین برای تشخیص هرزنامه مبتنی بر محتوای در صفحات عربی
با توجه به اینکه تعدادی از وب سایتها که در Web Spam uk2007 آمده موجود نیست و هم چنین بنا به ضرورت محاسبه ویژگیهای جدید، مجموعه داده جدیدی به نام uk2011 ساخته شده و به عنوان یک مجموعه جدید جایگزین شده است. مجموعه داده جدید، ۳۷۰۰ صفحه ی وب را در بر می گیرد] ۶۷[. هم چنین با توجه به مجموعه داده Wahshah و همکاران که ۴۰۰ صفحه ی وب را در بر میگیرد، اقدام به توسعه ی یک مجموعه داده عربی با ۱۰۰۰۰ صفحه وب عربی گردیده و ویژگی های جدید استخراج شده است. صفحات به صورت دستی برچسب گذاری شده اند] ۶۷[.
ویژگی های مورد استفاده:
از برخی ویژگی های مورد استفاده مطالعات قبلی بهره گرفته و علاوه بر آنها سه ویژگی جدید نیز ارائه گردیده است ]۶۲,۶۳, ۶۴, ۶۵, ۶۶[. ویژگی های جدید ارائه شده عبارتند از:
تعداد کل کلمات در برچسب <Meta>: keystuffing در عمل کلمات کلیدی در عناصر html هستند که به تعداد دفعات زیاد تکرار می شوند. هرزنامه نویسان از stuffing در برچسب متا استفاده می کنند که هدف آن جاسازی محتوای صفحات وب عربی با کلمات محبوب است.
کمینه یا بیشینه طول کلمه در صفحه وب : هرزنامه نویسان سعی می کنند طول کلمات کلیدی مهم یا محبوب را در صفحه ی وب افزایش دهند. به منظور شناسایی این ویژگی ها نیاز به دانستن کمینه یا میانگین طول کلمات در صفحات غیرهرزنامه داریم.
تعداد کل تصاویر در صفحه ی وب. افزایش تعداد تصاویر در صفحه ی وب می تواند منجر به جذب کاربران بیشتر شود و رتبه صفحه را در نتایج جستجو بهبود دهد.
متدلوژی مورد استفاده:
از دو الگوریتم یادگیری ماشین (درخت تصمیم و NaΪve Bayes) استفاده شده است. یک مجموعه داده از صفحات وب عربی شامل ۱۰۰۰۰ صفحه ی ساخته شده است. به علاوه از نسخه بروزرسانی شده UK2007 که UK2011 نامیده شده و شامل ۳۷۰۰ صفحه می باشد استفاده شده است.
تقسیم بندی کار به چهار قسمت:
۱-محاسبه ویژگی ها برای تشخیص هرزنامه وب
۲- برای مقایسه Extended Arabic 2011 و UK2011 از ویژگی های ارائه شده در ]۶۲[ استفاده شده است.
۳-هم چنین دو مجموعه داده Extended Arabic 2011 و UK2011 برای ویژگی های جدید مقایسه شدند.
نهایتاً همه ویژگی ها در یک گروه ادغام و این دو مجموعه داده روی این ویژگی ها مقایسه شدند.
نتایج :
الگوریتم درخت تصمیم j48 و NB به کار برده شده است. الگوریتم درخت تصمیم نسبت به NB برای تشخیص هرزنامه کاراتر بوده و مجموعه داده Extended Arabic-2011 نسبت به Uk-2011 بهتر عمل می کند] ۶۷[.
۳-۳-روش های مبتنی بر لینک:
تمام الگوریتم­های کشف هرزنامه مبتنی بر لینک می­توانند به ۴ گروه تقسیم شوند. گروه اول از رابطه مکانی (فاصله، co-citation، تشابه) بین صفحات وب و مجموعه ­ای از صفحات برای برچسب های شناخته شده استفاده می­ کنند. گروه دوم الگوریتم­ها، روی شناسایی گره­ها و لینک­های مشکوک و پایین آوردن وزن آن­ها تمرکز می­ کنند. گروه سوم، بوسیله استخراج ویژگی­های مبتنی بر لینک برای هر گره عمل می­ کند و الگوریتم­های یادگیری ماشین متنوع را برای کشف هرزنامه به کار می­برند. گروه چهارم الگوریتم­های مبتنی بر لینک، از ایده­ پالایش برچسب­ها مبتنی بر پیکربندی گراف وب استفاده می­ کنند، که برچسب های پیش بینی شده به وسیله الگوریتم پایه با بهره گرفتن از انتشار از طریق گراف فوق پیوند اصلاح می شوند ]۶۸[.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...