امروزه ابزارهای داده ­کاوی داده ­ها را آنالیز کرده و الگوهای داده­ای را کشف می­ کند. شکاف موجود بین داده و اطلاعات سبب ایجاد نیاز برای ابزارهای داده ­کاوی شده است تا داده ­های بی­ارزش را به دانشی ارزشمند تبدیل کند. اکنون داده‌کاوی به صورت وسیعی توسط شرکت­ها، با تمرکز بر روی مشتریان خود، مسائل مادی، ارتباطات و تشکیلات بازار استفاده می­ شود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

داده ­کاوی این شرکت­ها را قادر می­سازد که ارتباط عوامل درونی (مانند قیمت، وضعیت تولید یا مهارت کارمندان) با عوامل بیرونی (مانند شاخص­ های اقتصادی، رقابت و جمعیت مشتریان) را تعیین و تاثیرات فروش، رضایت مشتریان و منابع مشترک را مشخص کند. در نهایت شرکت‌ها می‌توانند در بین خلاصه اطلاعات برای مشاهده جزئیات تراکنش داده ­ها به جستجوی سریع بپردازند.
۲-۳-۱ فرایند­های داده ­کاوی
برخی مولفین داده ­کاوی را مترادف عبارت اکتشاف دانش از پایگاه­های داده می­دانند و بقیه به داده ­کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر یعنی اکتشاف دانش در پایگاه داده­ می­نگرند که به اختصار به آن KDD [۳۷] می­گویند که شامل مراحل زیر می­باشند.
۱- پاکسازی داده­[۳۸]: حذف داده ­های مزاحم و ناایستا.
۲- یکپارچه­سازی داده ­ها[۳۹]: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن.
۳- انتخاب داده ­ها[۴۰]: بازیابی داده ­های مربوط به عمل کاوش از پایگاه داده ­ها.
۴- تبدیل داده ­ها[۴۱]: تبدیل یا تلفیق داده ­ها به اشکالی مناسب برای بکار بردن روش­های مختلف آماری.
۵- داده ­کاوی[۴۲]: مرحله­ ای ضروری از فرایند KDD است که در آن از روش­های مختلف آماری برای استخراج الگوها استفاده می­ شود.
۶- ارزیابی الگوها[۴۳]: شناسایی الگوهای جذاب ارائه دانش.
۷- ارائه دانش[۴۴]: ارائه دانش استخراج شده با بهره گرفتن از تکنیک­های نمایش اطلاعات.
در شکل ۲-۲ مراحل کشف دانش نشان داده شده است.
شکل ۲-۲ فرایند کشف دانش، (نیاگا و هاردینگ[۴۵]، ۲۰۰۶)
۲-۳-۲ فعالیت­ها و کاربردهای داده ­کاوی
در عمل دو هدف اصلی داده ­کاوی شامل پیشگویی و توصیف می­باشد. پیش­گویی شامل بکارگیری بعضی متغیرها یا فیلدها در مجموعه داده ­ها برای پیشگویی مقادیر ناشناخته یا آتی دیگر متغیرها می­باشد. از سوی دیگر توصیف، بر روی یافتن الگوهای توصیف داده ­ها که توسط انسان­ها قابل تفسیر هستند، تاکید دارد. بنابراین می­توان فعالیت­های داده ­کاوی را در دو گروه زیر طبقه‌بندی کرد (رضایی‌نیا، ۱۳۸۸):

    • داده ­کاوی پیش ­بینی­کننده[۴۶] که مدلی از سیستم را ارائه می­دهد، توسط مجموعه داده ­های مشخصی توصیف می‌شود.
    • داده ­کاوی توصیفی[۴۷] که اطلاعات جدید و غیر بدیعی را بر اساس مجموعه داده ­های موجود ارائه می­دهد.

در طیف پیش ­بینی، هدف کلی داده ­کاوی ایجاد مدلی است که به عنوان یک برنامه و کد اجرایی بتوان از آن برای طبقه‌بندی، پیش ­بینی، برآورد و دیگر اعمال مشابه استفاده نمود. از طرف دیگر در طیف توصیفی، هدف کلی بدست آوردن یک شناخت از سیستم­های تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده‌های بزرگ می‌باشد. اهداف پیش ­بینی و توصیفی با بهره گرفتن از روش­ها و تکنیک­های داده ­کاوی محقق می­گردد. در شکل ۲-۳ انواع فعالیت­های داده ­کاوی مشخص می­ شود.
شکل ۲-۳ انواع فعالیت­ها و کاربردهای داده ­کاوی (مرادی، ۱۳۹۰)
۲-۳-۲-۱ روش­های داده ­کاوی پیش ­بینی­کننده
هدف از انجام پیش ­بینی تعیین ترکیب خروجی با بهره گرفتن از رفتار موجود می­باشد. در واقع رسیدن به یک نتیجه به وسیله اطلاعات موجود از داده ­ها می­باشد. مشخصه­های خروجی در این روش می­توانند عددی و قیاسی باشند. این استراتژی در بین استراتژی­ های داده ­کاوی از اهمیت خاصی برخوردار است و مفهوم کلی­تری را نسبت به موارد دیگر دارد. همانطور که در شکل قبل نشان داده شد روش­های پیش ­بینی­کننده به شرح ذیل می­باشد:
۲-۳-۲-۱-۱ طبقه ­بندی
طبقه ­بندی[۴۸] در واقع ارزشیابی ویژگی­های داده ­ها و سپس اختصاص دادن آنها به مجموعه ­ای از داده ­های از پیش تعیین شده است. این متداول­ترین قابلیت داده ­کاوی می­باشد. داده ­کاوی را می­توان با بهره گرفتن از داده ­های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی­ داده ­ها به کار برد. سپس می­توان از این مدل تعریف شده برای طبقه‌بندی مجموعه داده ­های جدید استفاده کرد. همچنین می­توان با تعیین نمایی که با آن سازگار است برای پیش‌بینی­های آتی از آن بهره گرفت.
برای مثال برای طبقه ­بندی تخلفات و کلاهبرداری­ها در صنعت و اعتبارات بانکی، با بهره گرفتن از قابلیت طبقه ­بندی داده‌کاوی، سیستم با بهره گرفتن از مجموعه ­ای از پیش تعریف شده از
داده ­ها، آموزش می­بیند. مجموعه داده ­های مورد استفاده در این نمونه باید هم شامل مجموعه‌هایی از داده ­های معتبر باشند و هم شامل مجموعه­هایی از داده ­های جعلی، از آنجا که این داده ­ها از پیش تعیین شده هستند، سیستم پارامترهایی را می­یابد که می­توان از آنها برای تشخیص طبقه ­بندی متمایز استفاده کرد. بعد از تعیین پارامترها سیستم از آنها برای طبقه ­بندی­های بعدی بهره خواهد گرفت. در واقع سیستم­هایی که بر اساس طبقه ­بندی داده ­کاوی می­ کنند، دو مجموعه ورودی دارند:
یک مجموعه آموزشی که در آن داده­هایی که به طور پیش فرض در دسته­های مختلف قرار دارند، همراه با ساختار دسته­بندی خود وارد سیستم می­شوند و سیستم بر اساس آنها به خود آموزش می­دهد یا به عبارتی پارامترهای دسته‌بندی را برای خود مهیا می­ کند. دسته دیگر از ورودی­هایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم می­شوند. تکنیک­های داده ­کاوی که برای دسته­بندی بکار می­آیند عموما شامل تکنیک­های شبکه عصبی[۴۹] و درخت تصمیم ­گیری[۵۰] هستند.
۲-۳-۲-۱-۲ رگرسیون
رگرسیون از مقادیر موجود برای پیش ­بینی مقادیر دیگر استفاده می­ کند. در ساده­ترین فرم رگرسیون، از تکنیک­های آماری استاندارد مانند رگرسیون خطی[۵۱] استفاده می­ کنند. متاسفانه بسیاری مسائل دنیای واقعی تصویر خطی ساده­ای از مقادیر قبلی نیستند. بنابراین تکنیک­های پیچیده­تری مانند رگرسیون لجستیک[۵۲]، درخت­های تصمیم و یا شبکه ­های عصبی ممکن است برای پیش ­بینی مورد نیاز باشند.
مدل­های یکسانی را می­توان هم برای رگرسیون و هم برای طبقه ­بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می­توان برای ساخت درخت­های طبقه ­بندی و هم درخت­های رگرسیون استفاده کرد. شبکه ­های عصبی را نیز می­توان برای هر دو مورد استفاده کرد.
۲-۳-۲-۱-۳ سری­های زمانی
پیش ­بینی از طریق سری‌های زمانی[۵۳] برای مقادیر ناشناخته آینده، بر اساس یک سری از پیش­گویی‌های متغیر با زمان صورت می­گیرد. این روش از نتایج معلوم قبلی برای اعمال پیش­گویی­های بعدی­اش بهره می­برد. مدل­ها باید دارای ویژگی­های مشخص زمانی مخصوصا به صورت سلسه مراتب دوره­ های زمانی (پنج یا هفت روز هفته، سیزدهم ماه از سال…)، فصلی، داده ­های تاریخی و توجه خاص به گذشته داشته باشند.
۲-۳-۲-۲ روش­های توصیفی داده ­کاوی[۵۴]
همانطور که گفته شد در طیف توصیفی، نهایت کار و هدف کلی بدست آوردن یک شناخت از سیستم­های تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده ­های بزرگ می­باشد. روش­های توصیفی به شرح زیر می­باشد.
۲-۳-۲-۲-۱ خلاصه سازی[۵۵]
قبل از اینکه بتوان روی مجموعه ­ای از داده ­ها داده ­کاوی انجام داد تا یک مدل پیش ­بینی مناسب ایجاد شود، باید بتوان داده ­ها را به خوبی شناخت که برای شروع این کار می­توان از پارارمترهایی مثل میانگین، انحراف معیار و… استفاده کرد. ابزارهای تصویرسازی داده ­ها و گراف­سازی برای شناخت داده ­ها و نقش آنها در آماده‌سازی بسیار مفید و غیرقابل انکار می­باشد. مثلا با بهره گرفتن از این ابزارها می­توان توزیع مقادیر مختلف داده ­ها را در یک نمودار مشاهده کرد و میزان داده‌های دارای خطا را بطور تقریبی حدس زد.
مهم­ترین مشکل این ابزار این است که معمولا تحلیل­ها دارای تعداد زیادی پارامتر می‌باشند که به هم مربوط هستند و باید رابطه این پارامترها را که چند بعدی می­باشد در دو بعد نمایش دهند، که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره می­باشد.
۲-۳-۲-۲-۲ قوانین انجمنی[۵۶]
اساسا ارتباط میان مجموعه‌ی اشیاء (چیزها) وابستگی­های جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش ­بینی­های مالی، سیاست­های بازاریابی، وقایع پزشکی و… می­ شود که توجه زیادی را در تحقیقات اخیر به خود جلب کرده است.
در این تکنیک رابطه وابستگی بین متغیرهای مختلف در پایگاه داده ­ها شناسایی می­ شود این روش بین مدیران بازاریابی و عمده­فروشان به نام سبد بازار معروف است. این روش یک حالت غیر نظارتی[۵۷] داده می­باشد که به جستجو برای یافتن ارتباط در مجموعه داده ­ها می ­پردازد. یکی از کاربردی­ترین حالات تحلیل وابستگی­ها، تجزیه و تحلیل سبد بازار می­باشد که در آن هدف یافتن کالاهایی است که معمولا به طور همزمان خریداری می­شوند. این کار کمک می­ کند که خرده‌فروشان بهتر بتوانند کالای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند (مرادی، ۱۳۹۰).
۲-۵ خوشه­بندی
فرایند گروه‌بندی مجموعه‌ای از اشیاء را در رده اشیاء مشابه، خوشه‌بندی[۵۸] می‌نامیم.
در داده‌کاوی، روش‌های خوشه‌بندی، کل مجموعه داده‌ها را به گروه یا خوشه‌های نسبتا همگنی تقسیم می‌کند. داده‌ها بر اس
اس اصل به حداکثر رساندن تشابه در داخل خوشه و به حداقل رساندن شباهت خوشه‌ها، گروه‌بندی می‌شوند، یعنی خوشه‌ها به طوری که اشیاء درون یک خوشه با توجه به یکدیگر تشابه بالایی دارند، اما بسیار بی‌شباهت به اشیاء در خوشه­های دیگر می‌باشند شکل می‌گیرند. تکنیک‌های خوشه­بندی، تجزیه و تحلیل داده را بدون استفاده از یک برچسب کلاس شناخته شده انجام می‌دهد. برخلاف تکنیک­های طبقه ­بندی، که به تجزیه و تحلیل داده‌های نشان‌دار با کلاس اشیاء می‌پردازد، برچسب­های کلاس در داده‌های آموزشی وجود ندارد، تنها به این دلیل که آنها در ابتدا شناخته شده نیستند. خوشه‌بندی برای تولید چنین برچسب‌های کلاسی استفاده می­ شود. هر خوشه­ای که تشکیل شده است می‌تواند به عنوان یک کلاس از اشیاء مشاهده شود، که قوانینی از آن مشتق می‌شود.
در خوشه­بندی ابتدا مجموعه‌ای از داده‌ها را به گروه‌هایی بر اساس تشابه تقسیم می‌کنیم و پس از آن برچسب‌هایی را به تعداد نسبتا کمی از گروه‌ها، اختصاص می‌دهیم. مزیت مهم یک فرایند مبتنی بر خوشه‌بندی این است که به تغییرات سازگار است و به بدست آوردن ویژگی‌های مفیدی که گروه ­های مختلف را از هم متمایز می‌کند کمک می‌کند (پراسد[۵۹] و همکاران، ۲۰۱۱).
۲-۵-۱ مزایای روش خوشه­بندی
مزایای روش خوشه­بندی عبارتند از:

    • این روش را می­توان برای داده ­های گوناگون استفاده نمود.

با انتخاب درست اندازه فاصله­های گوناگون خوشه­بندی را می­توان برای بیشتر داده ­ها استفاده کرد.

    • خوشه­بندی یک روش غیر مستقیم است.
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...