پایان نامه با فرمت word : منابع کارشناسی ارشد با موضوع : ارائه چارچوبی برای … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
۳-۲-۱-۷ نمونه برداری
عملیات نمونه برداری برای گزینش زیرمجموعهای از نمونههای مجموعه داده مورد پردازش است. در این روش از میان تمامی دادههایی که در مجموعه داده وجود دارند، با توجه به اندازه مجموعه داده نمونه تعدادی از دادهها انتخاب خواهند شد. در انجام این تحقیق به علت خلق ویژگی جدیدی به نام درجه اهمیت نیازمندی قادر به اعمال آن بر روی تمامی رکوردهای جمع آوری شده که بیش از دو میلیون میباشد نبودیم و به همین دلیل پیاده سازی صورت گرفته بر روی یک نمونه صدتایی از رکوردها میباشد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۳-۲-۲ یادگیری مدل
پس از پیش پردازش دادهها در فرایند داده کاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل نظم حاکم بر دادههای پیش پردازش شده، با توجه به روش کاوش دادهای که انتخاب میشود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد. در انجام این تحقیق از روش خوشه بندی که یکی از روشهای بدون ناظر میباشد بهره گرفتیم که به تشریح آن میپردازیم.
۳-۲-۲-۱ خوشه بندی
خوشه بندی از جمله روشهایی است که در آن هیچگونه برچسبی برای رکوردها در نظر گرفته نمیشود و رکوردها فقط بر اساس معیار شباهتی که معرفی شده است، به مجموعهای از خوشهها گروهبندی خواهند شد.
خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. خوشه بندی را میتوان به عنوان مهمترین روش در یادگیری بدون ناظر در نظر گرفت. در خوشه بندی سعی ما بر آن است تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه بیشینه و شباهت بین دادهها در خوشههای متفاوت کمینه شود.
۳-۲-۲-۲ خوشه بندی K-MEANS
الگوریتم خوشه بندی K-Means یکی از سادهترین و البته مشهورترین الگوریتمهای یادگیری بدون ناظر است. در K-Means عملاً مجموعه دادهها به تعداد خوشههای از پیش تعیین شده تقسیم میشوند. ایده اصلی در این الگوریتم تعریف K مرکز برای هر یک از خوشههاست. بهترین انتخاب برای مراکز خوشهها در این الگوریتم قرار دادن آنها در فاصله هر چه بیشتر از یکدیگر است. پس از آن هر رکورد در مجموعه داده به نزدیکترین مرکز خوشه تخصیص مییابد.
نکته قابل ذکر در انجام خوشه بندی با بهره گرفتن از الگوریتم K-Means این است که این الگوریتم وابستگی شدیدی به تعیین اندازه K برای تعداد خوشهها میباشد. راههای متفاوتی تاکنون برای تخمین K معرفی گردیده که از مشهورترین و بهترین این روشها میتوان به ترکیب معیارهای SSE و ASC اشاره نمود که هدف خوشه بندی را که بیشینه نمودن تراکم هر خوشه و نیز بیشینه نمودن جدایی میان خوشههاست به خوبی اندازه گیری میکند. ما نیز از ترکیب این دو معیار برای تعیین عدد K استفاده کردیم. معیارهای SSE و ASC را در جدول۳-۱ در بخش ملاحظه میکنید:
جدول۳-۱: معیارهای SSE و ASC
معیار محاسبه فاصله در این مرحله هر معیاری میتواند باشد. این معیار با ماهیت مجموعه داده ارتباط تنگاتنگی دارد. لازم به ذکر است در انجام این تحقیق از فاصله اقلیدسی که مشهورترین معیار شباهت میباشد بهره گرفتیم. نحوه محاسبه این فاصله را در رابطه (۱) میبینید:
(۱)
که در آن n بیانگر تعداد ویژگیهاست. همچنین xk و yk هم به ترتیب مبین kامین ویژگیهای دو رکورد x و y هستند.
۳-۲-۲-۳ خوشه بندی با بهره گرفتن از الگوریتم K-MEANS با توجه به فرکانس تکرار و درجه اهمیت درخواستها و نیازمندیها
در انجام این تحقیق با بهره گرفتن از ویژگیهای MessageId و SubjectId که به ترتیب بیانگر شناسه پیام و موضوع مورد درخواست و یا نیازمندی میباشد به محاسبه فرکانس تکرار درخواستها و نیازمندیها در ارتباط با هر موضوع خاص پرداختیم و یک ویژگی تحت عنوان Frequency تعریف کردیم. در پی آن با بهره گرفتن از نظر خبرگان و صاحب نظران شهرداری در بخش مدیریت شهری ۱۳۷ یک ویژگی دیگر تحت عنوان درجه اهمیت موضوع مورد درخواست تعریف کرده و آن را برای هزار نمونه در پایگاه داده مقداردهی کردیم. در انتها با بهره گرفتن از الگوریتم K-Means و این دو ویژگی به خوشه بندی پرداختیم.
۳-۲-۳ ارزیابی و تفسیر مدل
برای ارزیابی الگوریتمهای خوشه بندی میتوان از دو روش با ناظر و بدون ناظر استفاده کرد. روش ارزیابی بدون ناظر تنها فاصله بین خوشهای را نشان میدهد. در روش ارزیابی با ناظر سعی بر آنست که کیفیت خوشههای تشکیل شده بر اساس برچسب و رکوردهای آن خوشه و با بهره گرفتن از معیارهای مختلفی مانند Precision، Recall و Accuracy و غیره محاسبه میشود.
در این تحقیق ما به روش خودکاری توسط نرمافزار RapidMiner به ارزیابی خوشههای تولید شده پرداختیم و به نتیجه قابل قبولی رسیدیم که در بخش مطالعه موردی توضیح خواهیم داد. همچنین تفسیر خوشههای بدست آمده که چهار عدد میباشند در بخش مطالعه موردی انجام خواهد گرفت.
۳-۲-۴ دسته بندی جدید و اولویت بندی نیازمندیهای استخراج شده با بهره گرفتن از تکنیک رتبه بندی
اولویت بندی بحث عظیمی است که روشهای بسیاری را بسته به نوع مسئله برای آن تعریف کردند. این بدان معناست که ممکن است خیلی از روشها مناسب بکار گیری در یک مسئله نبوده و چه بسا حتی ممکن است بکار گیری برخی از روشها و تکنیکهای اولویت بندی در برخی مسائل ناممکن باشد. پس از بررسی مسئله این تحقیق در حجم عظیمی از دادهها و بررسی تکنیکها و روشهای مختلفی از اولویت بندی تصمیم گرفتیم از تکنیکی به نام رتبه بندی در این تحقیق استفاده کنیم.
جدول۳-۲ بررسی مختصری بر برخی روشهای اولویت بندی میباشد:
جدول۳-۲: بررسی برخی روشهای اولویت بندی [۲۱]
تکنیک
مقیاس
دانهبندی
پیچیدگی
ضعف / قوت
AHP
نسبی
ریز
خیلی پیچیده
تعداد زیاد مقایسهها، عدم توانایی در جمعآوری دقیق نیازمندی و تعیین دقیق میزان اهمیت هر نیازمندی
Hierarchy AHP
نسبی
ریز
پیچیده
عدم توجه به ابهامات و عدم قطعیت
Fuzzy AHP
نسبی
فرم در حال بارگذاری ...
[سه شنبه 1401-04-14] [ 02:06:00 ق.ظ ]
|