Data Collection
دهه ۱۹۶۰

تحلیل پویای داده‌های گذشته در یک سطح

پایگاه داده‌های ارتباطی
ODBC، SQL

در ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟

دسترسی به داده‌ها
Data Access
دهه ۱۹۸۰

تحلیل پویای داده‌های گذشته در چند سطح

OLAP، DW

در ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟

انبار داده‌ها
Data warehouse DSS
دهه۱۹۹۰

ارائه اطلاعات و داده‌های مربوط به آینده

کامپیوترهای چند پردازنده
الگوریتمهای پیشرفته

در ماه آینده چه اتفاقی خواهد افتاد؟

داده‌کاوی
Data Mining
امروزه

اگرچه عبارت داده‌کاوی اغلب به عنوان کشف دانش مورد استفاده قرار می‌گیرد، ولی فرایند کشف دانش مفهومی گسترده‌تر دارد که در ادامه به توضیح آن خواهیم پرداخت.
فرایند کشف دانش
فرایند استخراج دانش در شکل ۲-۱ نشان داده شده است. همان‌طور که در شکل مشاهده می‌کنید، فرایند کشف دانش یک فرایند شش مرحله‌ای است که داده‌کاوی فقط گامی از این فرایند است(Han, Kamber et al. 2011).
شکل ‏۲‑۱ : فرایند کشف دانش
مراحل فرایند استخراج دانش عبارت است از:
مرحله اول، انتخاب[۲۰] داده: ورودی این مرحله حجم عظیمی از داده‌ است. داده‌ها عموما در شکل‌های گوناگون و در مکان‌های مختلف نگه‌داری می‌شوند. ابتدا باید داده‌ها یک‌پارچه و در یکجا ذخیره شوند. پس انبارداده‌ای[۲۱] ایجاد می‌شود که مجموعه‌ای از مارت داده‌ها[۲۲] است. انبارداده مجموعه‌ای از اطلاعات درباره موضوعات مختلف در گستره یک سازمان است، اما مارت داده‌ها زیر مجموعه‌ای از انبار داده است. انبارداده مخاطبش کل سازمان است درحالی‌که مارت داده‌ها بر اساس موضوعی که جمع‌ آوری شده است در همان بخش از سازمان مورد استفاده قرار می‌گیرد. انبار داده از طریق فرایند پاکسازی داده، یکپارچه‌سازی داده‌ها، انتقال داده‌ها، بارگیری داده‌ها و داده‌های متناوب ساخته می‌شود. اما معمولاً انبار داده به‌وسیله پایگاه داده‌های چند بعدی مدل می‌شوند، که هر کدام از بعدهای انبار داده نشان دهنده یک یا مجموعه‌ای از صفات[۲۳] است. حال با توجه به مسئله مورد بحث و کاربردی که هدف فرایند داده‌کاوی است؛ از این انبار داده، مجموعه‌ای از داده‌ها انتخاب می‌شود. پس خروجی مرحله انتخاب، یک مجموعه داده هدف[۲۴] است (Sumathi and Sivanandam 2006).
مرحله دوم، پیش‌پردازش[۲۵]: داده‌های موجود در بانک‌های اطلاعاتی به‌خودی خود قابل استخراج شدن نیستند؛ زیرا کیفیت داده‌های اصلی پایین است. در این مرحله یک سری پردازش‌هایی بر روی داده انجام می‌شود تا داده‌ها آماده‌ی فرایند داده‌کاوی شوند. خروجی این مرحله، داده‌های آمایش شده است. سه عامل بر روی کیفیت داده‌ها تاثیرگذار است که در ذیل به آن‌ها اشاره می‌کنیم:

      • مقادیر مفقود شده[۲۶]: اگر مقادیر برخی از رکوردها در مجموعه داده مورد بررسی در بعضی از ویژگی‌ها موجود نباشد در این صورت در آن ویژگی در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهیم بود (Larose 2005). برای برطرف کردن مقادیر مفقود شده، شش رویکرد توسط هان و همکاران ارائه شده است که عبارت است از (Han, Kamber et al. 2011):
      • (( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

    ( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

  • حذف کردن رکوردهایی که دارای مقادیر مفقود شده هستند.
  • پر کردن دستی مقادیر مفقود شده.
  • پر کردن مقادیر با یک مقدار ثابت یا نامشخص.
  • پر کردن خودکار با بهره گرفتن از میانگین و یا مد در رکوردهای موجود.
  • پر کردن خودکار با بهره گرفتن از میانگین و یا مد آن ویژگی در رکوردهای موجود در کلاس مشابه با کلاس رکورد با مقادیر مفقود شده.
  • پر کردن خودکار با بهره گرفتن از استنتاج از روی سایر ویژگی‎های موجود در مجموعه داده و استفاده از الگوریتم‌های داده‌کاوی.
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...