الگوریتم بردار فضای حالت یکی از الگوریتم‌های بازیابی اطلاعات[۱۲۶] است که به در بسیاری از سیستم‌ها مورد استفاده قرار گرفته است. شکل ۴-۱ نحوه‌ی عملکرد کلی این الگوریتم را نشان می‌دهد.

شکل ۴-۱ : نحوه‌ی عملکرد الگوریتم بردار فضای حالت

مطابق شکل فوق، عملکرد کلی الگوریتم بردار فضای حالت به این صورت است:
مرحله اول که اضافه کردن سند[۱۲۷] به سیستم با بهره گرفتن از کلمات مفید داخل سند است و برای هر سندی یک بردار چند وجهی ایجاد می‌کند.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در مرحله بعد که کاربر یک درخواستی به سیستم می‌دهد، یک بردار برای درخواست کاربر ایجاد می‌کند و کسینوس[۱۲۸] زاویه­ای که هرکدام از بردارهای سند با بردار درخواست کاربر ایجاد می‌کند را محاسبه می‌کند.
در مرحله‌ی آخر، اسنادی که بردار آن­ها با بردار درخواست کاربر زاویه­ های کوچک‌تری دارند را به عنوان نتیجه به کاربر برمی­گرداند.
در واقع بخش‌های مختلف وب­سرویس‌ها (نام وب­سرویس، توصیف وب­سرویس، عملیات وب­سرویس‌ها و ورودی‌ها و خروجی‌های آن‌ها) به عنوان یک سند متنی در سیستم‌های کشف وب­سرویس ذخیره می‌شوند که استفاده از این الگوریتم برای برگرداندن وب­سرویس‌های مناسب به کاربر روش مناسبی است. هر چند که این الگوریتم معایبی دارد که در ادامه در مورد چگونگی رفع این معایب بحث خواهد شد.

۴-۳-۱-۱ ایجاد بردار برای هر سند

شکل ۴-۲ : بردار فضای حالت

همان‌طور که گفته شد در این الگوریتم برای هر وب­سرویسی یک بردار فضای حالت ساخته می‌شود که ساختار آن مطابق شکل بالاست. هر وجه بردار فضای حالت یک کلمه کلیدی همراه با وزنی که می‌گیرد می­باشد. یکی از مسائل اصلی در این الگوریتم چگونگی وزن دهی به کلمات کلیدی است. روش‌های مختلفی برای وزن دهی کلمات وجود دارد که به شرح زیر می‌باشند:
ساده‌ترین ایده این است که به هر کلمه‌ی کلیدی مثل t معادل با تعداد دفعات حضور در سند وزن دهی می­ شود که با نماد نشان داده می‌شود. اما این نوع وزن دهی معایبی دارند که عملاً این ایده‌ را ناکارآمد می‌کند و این معایب عبارتند از :

رابطه ۴-۱

تمایزی بین دو جمله “mary is quicker than jahn” و“jahn is quicker than mary” قائل نمی‌شود و هر دو جمله را یکسان فرض می‌کند
همه کلمات موجود در سند به یک اندازه مهم هستند در حالی که ممکن است کلمه­ای در متن وجود داشته باشد که به دفعات زیاد در سند تکرار شده است ولی به آن اندازه مهم نیست، بنابراین باید کلمات زائد را تا حد ممکن حذف کنیم.
مشکل اصلی روش فوق این است که همه کلمات کلیدی به یک اندازه مهم هستند درحالی­که در عمل به این صورت نیست. به عنوان مثال اگر یک مجموعه متن در مورد وب­سرویس‌ها داشته باشیم، کلمه «وب سرویس» در این مجموعه از متن‌ها یک کلمه زائد است. چون که مثل کلمه «به» در همه متن‌ها وجود دارد و در محاسبات نباید تأثیری داشته باشد. برای رفع مشکل وزن دهی فوق به جای استفاده مستقیم از ، از فرمول زیر استفاده شده است که باعث می‌شود کلماتی که معمولاً در بیشتر سندها وجود دارند، تأثیر کمتری در بازیابی اطلاعات داشته باشند.

رابطه ۴-۲

رابطه ۴-۳

مفاهیم پارامترهای مورد استفاده در معادلات عبارتند از :
N : تعداد کل سندهای موجود
dft [۱۲۹] : تعداد تکرار کلمه t در چند سند
idft [۱۳۰] : دلیل استفاده از این پارامتر در فرمول وزن دهی کلمات این است که در بعضی از سندها کلماتی هستند که شکل عمومی‌تری دارند و معمولاً در بیشتر سندها وجود دارند. برای اینکه اثر چنین کلماتی در محاسبه وزن کمتر شود، از این پارامتر استفاده می‌کنیم. بدین صورت که اگر در یک مجموعه از سندها، کلمه‌ی t1 را داشته باشیم که در همه‌ی سندها وجود داشته باشد طبیعتاً به عنوان کلمه زائد[۱۳۱] شناخته می‌شوند و وزنی که می‌گیرد صفر خواهد شد. بدین صورت که :
اگر کلمه ای در بیشتر سندها وجود داشته باشد، dft تقریباً با N برابر می‌شود و در نتیجه idft مقدار صفر به خود می‌گیرد و در نهایت وزن t1 صفر می‌شود.
در کل اگر مقدار :
مقدار بالایی باشد: به این معنی است که کلمه t با تعداد تکرار بیشتر در چند سند وجود دارد.
مقدار پایینی باشد: کلمه t با تعداد تکرار کمتری در یک سند وجود دارد و یا در سندهای بیشتری تکرار شده است.
خیلی کمتر باشد: یعنی اینکه کلمه t در بیشتر متن‌ها وجود دارد و به عنوان کلمه زائد شناخته می‌شود.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...