با اینکه فرمول ۴-۲ برای محاسبه وزن کلمات روش مناسبی است ولی رابطه نرمالی نیست. به عنوان مثال در بعضی از سندها مشاهده می‌شود که یک کلمه­ای Tf بالایی دارد که صرفاً به خاطر طولانی بودن سند اتفاق می‌افتد. برای نمونه اگر سندی به اسم D داشته باشیم و سند D’ را از افزودن D به خود آن به دست آوریم (D’ = D + D)، طبیعتاً Tfای که کلمه t در سند D’ می‌گیرد دو برابر Tf کلمه t در سند D خواهد بود. برای رفع مشکل مطرح شده از فرمول ۴-۴ استفاده می‌شود که مقادیر انتساب داده شده به کلمات را نرمال سازی می‌کند.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

رابطه ۴-۴

رابطه ۴-۵

مفاهیم پارامترهای مورد استفاده در معادلات عبارتند از :
: بیشترین مقدار Tf انتساب داده شده به یک کلمه در یک سند
: به عنوان تصفیه­کننده عمل می‌کند که معمولاً بر روی Tf های خیلی کوچک و Tf های خیلی بزرگ تأثیر می‌گذارد.
هر چند که روش‌های فوق از لحاظ دقت وزن دهی به کلمات کارایی خوبی دارند ولی از نظر محاسبه وزن وقت­گیر هستند. چون که محاسبه df هر کلمه کار بسیار وقت­گیری هستند. یک روش خلاقانه با زمان محاسبه خیلی کمتری وجود دارد که رابطه آن :

رابطه ۴-۶

در بسیاری از مواقع، وقوع ۱۰ بار کلمه t در یک سند معادل با وقوع ۱ بار در سند اهمیت دارد که برای اعمال این نکته به وزن کلمات می‌توانیم از فرمول فوق استفاده کنیم.

۴-۳-۱-۲ محاسبه میزان تشابه

با فراهم شدن بردارهای وب­سرویس‌ها و درخواست کاربران، تنها مرحله محاسبه میزان مشابهت بین درخواست کاربر با وب­سرویس­ها باقی می‌ماند که برای این کار کسینوس زاویه­ای که بردار درخواست کاربر با بردار وب­سرویس می‌سازد، محاسبه می‌شود که فرمول مورد استفاده به این صورت است:
و : بردارهای سند d و درخواست q
: ضرب نقطه­ای[۱۳۲] دو تا بردار
: طول اقلیدسی[۱۳۳] بردار
با بهره گرفتن از فرمول‌های فوق میزان مشابهت هر کدام از سندها با درخواست کاربر محاسبه می‌شود و در نهایت سندهایی که میزان مشابهت بیشتری به درخواست کاربر دارند به عنوان نتیجه به کاربر برگردانده می‌شوند. الگوریتم بردار فضای حالت معایبی نیز دارد که در بخش‌های بعدی همراه با راه حل بیان خواهند شد.

۴-۳-۲ خوشه­بندی وب سرویس‌ها

با توجه به مطالبی که در بخش ۲-۳ بیان شد، فرایند خوشه­بندی اطلاعات باعث کاراتر شدن سیستم‌های بازیابی اطلاعات و موتورهای جستجو می‌شود. با توجه به شباهتی که بین الگوریتم‌های کشف وب­سرویس و موتورهای جستجو و توصیفات متنی وب­سرویس‌ها با اسناد متنی وجود دارد، استفاده از این فرایند در الگوریتم پیشنهادی امری ضروری است. الگوریتم‌های خوشه­بندی مختلفی در بخش ۲-۳ تشریح شد که روند کلی آن‌ها به این صورت بود که:
مجموعه ای از اشیاء(به عنوان مثال تعدادی فایل WSDL وب سرویس‌ها) را به عنوان ورودی می‌گیرند.
خوشه­هایی از اشیاء را به صورت خودکار می‌سازند که با توجه به نوع الگوریتم، خوشه‌ها می‌توانند گسسته یا همپوشان باشند.
استفاده از این الگوریتم‌های خوشه­بندی در الگوریتم پیشنهادی معایبی دارد که به شرح زیر می‌باشند.
ایجاد نشدن خوشه­های مورد نظر کاربران: همان‌طور که گفته شد این الگوریتم‌ها با بهره گرفتن از وب­سرویس‌های موجود خوشه‌هایی را به صورت خودکار ایجاد می‌کنند که در این حالت ممکن است خوشه­های مورد نظر کاربران ایجاد نشوند. استفاده از این نوع الگوریتم‌ها در محیط­هایی که کاربران به صورت فعال در آن‌ها (همانند شبکه‌ی اجتماعی تخصصی) حضور دارند، مناسب نیست. برای اینکه کاربران در این نوع محیط­ها مایلند که خوشه­های با مفهومی را انتخاب و یا ایجاد کنند.
زمان­بر بودن ایجاد خوشه­های جدید با افزایش تدریجی وب­سرویس‌ها به سیستم: در محیط پویای سیستم‌های کشف وب­سرویس که هر روز ممکن است تعدادی وب­سرویس به سیستم اضافه شود، به روز کردن خوشه­های موجود یا ایجاد خوشه­های جدید با بهره گرفتن از این نوع الگوریتم‌ها زمان بر است.
با توجه به مطالب و مشکلات بیان شده، باید الگوریتمی ارائه شود که هم مزیت‌های الگوریتم‌های خوشه­بندی قبلی را داشته باشد و هم معایب مطرح شده‌ فوق را نداشته باشد. روش ارائه شده برای خوشه­بندی وب­سرویس‌ها در این تحقیق، تحت تأثیر مؤلفه‌هایی همانند شبکه‌ی اجتماعی تخصصی و رویکرد آگاه از زمینه مورد استفاده در الگوریتم کلی است که باعث می‌شوند کاربران نقش زیادی در خوشه­بندی مناسب وب­سرویس‌ها داشته باشند. روند کلی الگوریتم خوشه­بندی پیشنهادی به شرح زیر می‌باشد:
ایجاد خوشه: همان‌طور که بیان شد، هر کدام از کاربران با توجه به نیاز خود و سیستم می‌توانند خوشه­های مورد نظر خود را ایجاد کنند که این کار به آسانی با وارد کردن نام و توصیفی از خوشه صورت می­پذیرد. با اینکه کاربران توانایی ایجاد خوشه­های مختلفی را دارند، با این حال همه خوشه­های ایجاد شده نمی‌توانند به یک اندازه در الگوریتم کشف وب­سرویس تأثیرگذار باشند. انتخاب شدن خوشه‌ها توسط کاربران دیگر از نکات کلیدی است که باعث می‌شود تنها خوشه‌هایی که مورد توجه افراد گوناگون قرار گرفته‌اند تأثیر بیشتری بر روی الگوریتم کشف وب­سرویس داشته باشند.

شکل ۴-۳ : واسط کاربری ایجاد خوشه

اضافه شدن وب سرویس‌ها به خوشه‌ها: کاربران در سه موقعیت وب­سرویس‌های خود را به خوشه اضافه می‌کنند که عبارتند از:
زمان ایجاد خوشه: در این موقعیت هم کاربر و هم سیستم می‌توانند وب­سرویس‌هایی را به خوشه‌ها اضافه کنند. بدین صورت که کاربر از بین وب­سرویس‌هایی که خود انتشار داده است، وب­سرویس‌هایی را که بنا به تشخیص خود می‌توانند در این خوشه قرار بگیرند به خوشه اضافه می‌کند. روش دوم نیز این است که سیستم وب­سرویس‌های کاربری را که خوشه­ای ایجاد کرده است، با توصیفات خوشه جدید مقایسه می‌کند که با هر کدام از وب­سرویس‌ها مشابه باشند به خوشه اضافه می‌کند.
زمان انتشار وب­سرویس جدید: زمانی که وب­سرویس جدیدی توسط کاربر انتشار داده می‌شود با خوشه­های پسندیده توسط کاربر مقایسه می‌شود و هر کدام از وب­سرویس‌ها که شباهت بیشتری با این خوشه ­ها داشته باشند به آن اضافه می‌شوند.
زمان پسندیده شدن خوشه جدید : زمانی که کاربر خوشه جدیدی را می‌پسندد همه وب­سرویس‌های انتشار یافته توسط کاربر با خوشه مقایسه می‌شود تا وب سرویس‌های مشابه به خوشه اضافه شوند.
ویرایش توصیفات خوشه‌ها : توصیف خوشه انعکاسی از محتوای داخلی (وب­سرویس‌های متعلق به خوشه)­ خوشه است که با اضافه شدن هر وب­سرویسی به آن باید به روز شود. به روز بودن توصیف خوشه هم بر الگوریتم کشف وب­سرویس پیشنهادی و هم در اضافه شدن وب­سرویس‌های جدید به خوشه تأثیر می‌گذارد. هر اندازه که توصیف خوشه انعکاس خوبی از وب­سرویس‌های متعلق به خوشه را داشته باشد، به همان اندازه بر دقت افزودن وب­سرویس جدید به خوشه افزایش می­یابد و یا در الگوریتم کشف وب سرویس، زمانی که درخواست کاربر با توصیفات خوشه‌ها مقایسه می‌شود، تأثیر زیادی دارد.
راهکار خوشه­بندی مطرح شده، بنا به دلایلی، مشکلات الگوریتم‌های خوشه­بندی قبلی را ندارد: یکی از مشکلات الگوریتم‌های قبلی ایجاد نشدن خوشه­های مورد نظر کاربران است. در این روش چون کاربران خودشان خوشه های مورد نیاز را ایجاد می‌­کنند، چنین مشکلی وجود نخواهد داشت. مشکل دوم، زمان بر بودن ایجاد خوشه های جدید با افزایش تدریجی وب­سرویس‌ها به سیستم است. با توجه به اینکه افزودن وب­سرویس‌های جدید تنها در خوشه‌هایی که کاربر پسندیده است تغییراتی اعمال می‌کند، زمان­بر نخواهد بود، اما در الگوریتم‌های قبلی با افزایش تدریجی وب­سرویس‌ها کل ساختار خوشه­بندی تغییر می‌کند.

۴-۴ معماری الگوریتم پیشنهادی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...