۳-۲-۱-۷ نمونه برداری

عملیات نمونه برداری برای گزینش زیرمجموعه‌ای از نمونه‌های مجموعه داده مورد پردازش است. در این روش از میان تمامی داده‌هایی که در مجموعه داده وجود دارند، با توجه به اندازه مجموعه داده نمونه تعدادی از داده‌ها انتخاب خواهند شد. در انجام این تحقیق به علت خلق ویژگی جدیدی به نام درجه اهمیت نیازمندی قادر به اعمال آن بر روی تمامی رکوردهای جمع آوری شده که بیش از دو میلیون می‌باشد نبودیم و به همین دلیل پیاده سازی صورت گرفته بر روی یک نمونه صدتایی از رکوردها می‌باشد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

۳-۲-۲ یادگیری مدل

پس از پیش پردازش داده‌ها در فرایند داده کاوی، داده آماده اعمال به مرحله یادگیری مدل است. در مرحله یادگیری مدل نظم حاکم بر داده‌های پیش پردازش شده، با توجه به روش کاوش داده‌ای که انتخاب می‌شود، شناسایی شده و مدل تولید شده برای ارزیابی به مرحله بعد یعنی ارزیابی و تفسیر مدل منتقل خواهد شد. در انجام این تحقیق از روش خوشه بندی که یکی از روش‌های بدون ناظر می‌باشد بهره گرفتیم که به تشریح آن می‌پردازیم.

۳-۲-۲-۱ خوشه بندی

خوشه بندی از جمله روش‌هایی است که در آن هیچگونه برچسبی برای رکوردها در نظر گرفته نمی‌شود و رکوردها فقط بر اساس معیار شباهتی که معرفی شده است، به مجموعه‌ای از خوشه‌ها گروه‌بندی خواهند شد.
خوشه به مجموعه‌ای از داده‌ها گفته می‌شود که به هم شباهت داشته باشند. خوشه بندی را می‌توان به عنوان مهم‌ترین روش در یادگیری بدون ناظر در نظر گرفت. در خوشه بندی سعی ما بر آن است تا داده‌ها به خوشه‌هایی تقسیم شوند که شباهت بین داده‌های درون هر خوشه بیشینه و شباهت بین داده‌ها در خوشه‌های متفاوت کمینه شود.

۳-۲-۲-۲ خوشه بندی K-MEANS

الگوریتم خوشه بندی K-Means یکی از ساده‌ترین و البته مشهورترین الگوریتم‌های یادگیری بدون ناظر است. در K-Means عملاً مجموعه داده‌ها به تعداد خوشه‌های از پیش تعیین شده تقسیم می‌شوند. ایده اصلی در این الگوریتم تعریف K مرکز برای هر یک از خوشه‌هاست. بهترین انتخاب برای مراکز خوشه‌ها در این الگوریتم قرار دادن آنها در فاصله هر چه بیشتر از یکدیگر است. پس از آن هر رکورد در مجموعه داده به نزدیکترین مرکز خوشه تخصیص می‌یابد.
نکته قابل ذکر در انجام خوشه بندی با بهره گرفتن از الگوریتم K-Means این است که این الگوریتم وابستگی شدیدی به تعیین اندازه K برای تعداد خوشه‌ها می‌باشد. راه‌های متفاوتی تاکنون برای تخمین K معرفی گردیده که از مشهورترین و بهترین این روش‌ها می‌توان به ترکیب معیارهای SSE و ASC اشاره نمود که هدف خوشه بندی را که بیشینه نمودن تراکم هر خوشه و نیز بیشینه نمودن جدایی میان خوشه‌هاست به خوبی اندازه گیری می‌کند. ما نیز از ترکیب این دو معیار برای تعیین عدد K استفاده کردیم. معیارهای SSE و ASC را در جدول۳-۱ در بخش ملاحظه می‌کنید:
جدول۳-۱: معیارهای SSE و ASC
معیار محاسبه فاصله در این مرحله هر معیاری می‌تواند باشد. این معیار با ماهیت مجموعه داده ارتباط تنگاتنگی دارد. لازم به ذکر است در انجام این تحقیق از فاصله اقلیدسی که مشهورترین معیار شباهت می‌باشد بهره گرفتیم. نحوه محاسبه این فاصله را در رابطه (۱) می‌بینید:
(۱)
که در آن n بیانگر تعداد ویژگی‌هاست. همچنین xk و yk هم به ترتیب مبین kامین ویژگی‌های دو رکورد x و y هستند.

۳-۲-۲-۳ خوشه بندی با بهره گرفتن از الگوریتم K-MEANS با توجه به فرکانس تکرار و درجه اهمیت درخواست‌ها و نیازمندی‌ها

در انجام این تحقیق با بهره گرفتن از ویژگی‌های MessageId و SubjectId که به ترتیب بیانگر شناسه پیام و موضوع مورد درخواست و یا نیازمندی می‌باشد به محاسبه فرکانس تکرار درخواست‌ها و نیازمندی‌ها در ارتباط با هر موضوع خاص پرداختیم و یک ویژگی تحت عنوان Frequency تعریف کردیم. در پی آن با بهره گرفتن از نظر خبرگان و صاحب نظران شهرداری در بخش مدیریت شهری ۱۳۷ یک ویژگی دیگر تحت عنوان درجه اهمیت موضوع مورد درخواست تعریف کرده و آن را برای هزار نمونه در پایگاه داده مقداردهی کردیم. در انتها با بهره گرفتن از الگوریتم K-Means و این دو ویژگی به خوشه بندی پرداختیم.

۳-۲-۳ ارزیابی و تفسیر مدل

برای ارزیابی الگوریتم‌های خوشه بندی می‌توان از دو روش با ناظر و بدون ناظر استفاده کرد. روش ارزیابی بدون ناظر تنها فاصله بین خوشه‌ای را نشان می‌دهد. در روش ارزیابی با ناظر سعی بر آنست که کیفیت خوشه‌های تشکیل شده بر اساس برچسب و رکوردهای آن خوشه و با بهره گرفتن از معیارهای مختلفی مانند Precision، Recall و Accuracy و غیره محاسبه می‌شود.
در این تحقیق ما به روش خودکاری توسط نرم‌افزار RapidMiner به ارزیابی خوشه‌های تولید شده پرداختیم و به نتیجه قابل قبولی رسیدیم که در بخش مطالعه موردی توضیح خواهیم داد. همچنین تفسیر خوشه‌های بدست آمده که چهار عدد می‌باشند در بخش مطالعه موردی انجام خواهد گرفت.

۳-۲-۴ دسته بندی جدید و اولویت بندی نیازمندی‌های استخراج شده با بهره گرفتن از تکنیک رتبه بندی

اولویت بندی بحث عظیمی است که روش‌های بسیاری را بسته به نوع مسئله برای آن تعریف کردند. این بدان معناست که ممکن است خیلی از روش‌ها مناسب بکار گیری در یک مسئله نبوده و چه بسا حتی ممکن است بکار گیری برخی از روش‌ها و تکنیک‌های اولویت بندی در برخی مسائل ناممکن باشد. پس از بررسی مسئله این تحقیق در حجم عظیمی از داده‌ها و بررسی تکنیک‌ها و روش‌های مختلفی از اولویت بندی تصمیم گرفتیم از تکنیکی به نام رتبه بندی در این تحقیق استفاده کنیم.
جدول۳-۲ بررسی مختصری بر برخی روش‌های اولویت بندی می‌باشد:
جدول۳-۲: بررسی برخی روش‌های اولویت بندی [۲۱]

تکنیک
مقیاس
دانه­بندی
پیچیدگی
ضعف / قوت

AHP

نسبی

ریز

خیلی پیچیده

تعداد زیاد مقایسه­­ها، عدم توانایی در جمع­آوری دقیق نیازمندی و تعیین دقیق میزان اهمیت هر نیازمندی

Hierarchy AHP

نسبی

ریز

پیچیده

عدم توجه به ابهامات و عدم قطعیت

Fuzzy AHP

نسبی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...