پایان نامه کارشناسی ارشد : دانلود فایل های پایان نامه درباره ارائه یک … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
الگوریتم بردار فضای حالت یکی از الگوریتمهای بازیابی اطلاعات[۱۲۶] است که به در بسیاری از سیستمها مورد استفاده قرار گرفته است. شکل ۴-۱ نحوهی عملکرد کلی این الگوریتم را نشان میدهد.
شکل ۴-۱ : نحوهی عملکرد الگوریتم بردار فضای حالت
مطابق شکل فوق، عملکرد کلی الگوریتم بردار فضای حالت به این صورت است:
مرحله اول که اضافه کردن سند[۱۲۷] به سیستم با بهره گرفتن از کلمات مفید داخل سند است و برای هر سندی یک بردار چند وجهی ایجاد میکند.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در مرحله بعد که کاربر یک درخواستی به سیستم میدهد، یک بردار برای درخواست کاربر ایجاد میکند و کسینوس[۱۲۸] زاویهای که هرکدام از بردارهای سند با بردار درخواست کاربر ایجاد میکند را محاسبه میکند.
در مرحلهی آخر، اسنادی که بردار آنها با بردار درخواست کاربر زاویه های کوچکتری دارند را به عنوان نتیجه به کاربر برمیگرداند.
در واقع بخشهای مختلف وبسرویسها (نام وبسرویس، توصیف وبسرویس، عملیات وبسرویسها و ورودیها و خروجیهای آنها) به عنوان یک سند متنی در سیستمهای کشف وبسرویس ذخیره میشوند که استفاده از این الگوریتم برای برگرداندن وبسرویسهای مناسب به کاربر روش مناسبی است. هر چند که این الگوریتم معایبی دارد که در ادامه در مورد چگونگی رفع این معایب بحث خواهد شد.
۴-۳-۱-۱ ایجاد بردار برای هر سند
شکل ۴-۲ : بردار فضای حالت
همانطور که گفته شد در این الگوریتم برای هر وبسرویسی یک بردار فضای حالت ساخته میشود که ساختار آن مطابق شکل بالاست. هر وجه بردار فضای حالت یک کلمه کلیدی همراه با وزنی که میگیرد میباشد. یکی از مسائل اصلی در این الگوریتم چگونگی وزن دهی به کلمات کلیدی است. روشهای مختلفی برای وزن دهی کلمات وجود دارد که به شرح زیر میباشند:
سادهترین ایده این است که به هر کلمهی کلیدی مثل t معادل با تعداد دفعات حضور در سند وزن دهی می شود که با نماد نشان داده میشود. اما این نوع وزن دهی معایبی دارند که عملاً این ایده را ناکارآمد میکند و این معایب عبارتند از :
رابطه ۴-۱
تمایزی بین دو جمله “mary is quicker than jahn” و“jahn is quicker than mary” قائل نمیشود و هر دو جمله را یکسان فرض میکند
همه کلمات موجود در سند به یک اندازه مهم هستند در حالی که ممکن است کلمهای در متن وجود داشته باشد که به دفعات زیاد در سند تکرار شده است ولی به آن اندازه مهم نیست، بنابراین باید کلمات زائد را تا حد ممکن حذف کنیم.
مشکل اصلی روش فوق این است که همه کلمات کلیدی به یک اندازه مهم هستند درحالیکه در عمل به این صورت نیست. به عنوان مثال اگر یک مجموعه متن در مورد وبسرویسها داشته باشیم، کلمه «وب سرویس» در این مجموعه از متنها یک کلمه زائد است. چون که مثل کلمه «به» در همه متنها وجود دارد و در محاسبات نباید تأثیری داشته باشد. برای رفع مشکل وزن دهی فوق به جای استفاده مستقیم از ، از فرمول زیر استفاده شده است که باعث میشود کلماتی که معمولاً در بیشتر سندها وجود دارند، تأثیر کمتری در بازیابی اطلاعات داشته باشند.
رابطه ۴-۲
رابطه ۴-۳
مفاهیم پارامترهای مورد استفاده در معادلات عبارتند از :
N : تعداد کل سندهای موجود
dft [۱۲۹] : تعداد تکرار کلمه t در چند سند
idft [۱۳۰] : دلیل استفاده از این پارامتر در فرمول وزن دهی کلمات این است که در بعضی از سندها کلماتی هستند که شکل عمومیتری دارند و معمولاً در بیشتر سندها وجود دارند. برای اینکه اثر چنین کلماتی در محاسبه وزن کمتر شود، از این پارامتر استفاده میکنیم. بدین صورت که اگر در یک مجموعه از سندها، کلمهی t1 را داشته باشیم که در همهی سندها وجود داشته باشد طبیعتاً به عنوان کلمه زائد[۱۳۱] شناخته میشوند و وزنی که میگیرد صفر خواهد شد. بدین صورت که :
اگر کلمه ای در بیشتر سندها وجود داشته باشد، dft تقریباً با N برابر میشود و در نتیجه idft مقدار صفر به خود میگیرد و در نهایت وزن t1 صفر میشود.
در کل اگر مقدار :
مقدار بالایی باشد: به این معنی است که کلمه t با تعداد تکرار بیشتر در چند سند وجود دارد.
مقدار پایینی باشد: کلمه t با تعداد تکرار کمتری در یک سند وجود دارد و یا در سندهای بیشتری تکرار شده است.
خیلی کمتر باشد: یعنی اینکه کلمه t در بیشتر متنها وجود دارد و به عنوان کلمه زائد شناخته میشود.
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 02:07:00 ق.ظ ]
|