امروزه ابزارهای داده کاوی داده ها را آنالیز کرده و الگوهای دادهای را کشف می کند. شکاف موجود بین داده و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بیارزش را به دانشی ارزشمند تبدیل کند. اکنون دادهکاوی به صورت وسیعی توسط شرکتها، با تمرکز بر روی مشتریان خود، مسائل مادی، ارتباطات و تشکیلات بازار استفاده می شود.
داده کاوی این شرکتها را قادر میسازد که ارتباط عوامل درونی (مانند قیمت، وضعیت تولید یا مهارت کارمندان) با عوامل بیرونی (مانند شاخص های اقتصادی، رقابت و جمعیت مشتریان) را تعیین و تاثیرات فروش، رضایت مشتریان و منابع مشترک را مشخص کند. در نهایت شرکتها میتوانند در بین خلاصه اطلاعات برای مشاهده جزئیات تراکنش داده ها به جستجوی سریع بپردازند.
۲-۳-۱ فرایندهای داده کاوی
برخی مولفین داده کاوی را مترادف عبارت اکتشاف دانش از پایگاههای داده میدانند و بقیه به داده کاوی به عنوان یک مرحله ضروری از فرایند بزرگتر یعنی اکتشاف دانش در پایگاه داده مینگرند که به اختصار به آن KDD [۳۷] میگویند که شامل مراحل زیر میباشند.
۱- پاکسازی داده[۳۸]: حذف داده های مزاحم و ناایستا.
۲- یکپارچهسازی داده ها[۳۹]: ترکیب منابع داده متعدد و پراکنده و احیانا ناهمگن.
۳- انتخاب داده ها[۴۰]: بازیابی داده های مربوط به عمل کاوش از پایگاه داده ها.
۴- تبدیل داده ها[۴۱]: تبدیل یا تلفیق داده ها به اشکالی مناسب برای بکار بردن روشهای مختلف آماری.
۵- داده کاوی[۴۲]: مرحله ای ضروری از فرایند KDD است که در آن از روشهای مختلف آماری برای استخراج الگوها استفاده می شود.
۶- ارزیابی الگوها[۴۳]: شناسایی الگوهای جذاب ارائه دانش.
۷- ارائه دانش[۴۴]: ارائه دانش استخراج شده با بهره گرفتن از تکنیکهای نمایش اطلاعات.
در شکل ۲-۲ مراحل کشف دانش نشان داده شده است.
شکل ۲-۲ فرایند کشف دانش، (نیاگا و هاردینگ[۴۵]، ۲۰۰۶)
۲-۳-۲ فعالیتها و کاربردهای داده کاوی
در عمل دو هدف اصلی داده کاوی شامل پیشگویی و توصیف میباشد. پیشگویی شامل بکارگیری بعضی متغیرها یا فیلدها در مجموعه داده ها برای پیشگویی مقادیر ناشناخته یا آتی دیگر متغیرها میباشد. از سوی دیگر توصیف، بر روی یافتن الگوهای توصیف داده ها که توسط انسانها قابل تفسیر هستند، تاکید دارد. بنابراین میتوان فعالیتهای داده کاوی را در دو گروه زیر طبقهبندی کرد (رضایینیا، ۱۳۸۸):
-
- داده کاوی پیش بینیکننده[۴۶] که مدلی از سیستم را ارائه میدهد، توسط مجموعه داده های مشخصی توصیف میشود.
-
- داده کاوی توصیفی[۴۷] که اطلاعات جدید و غیر بدیعی را بر اساس مجموعه داده های موجود ارائه میدهد.
در طیف پیش بینی، هدف کلی داده کاوی ایجاد مدلی است که به عنوان یک برنامه و کد اجرایی بتوان از آن برای طبقهبندی، پیش بینی، برآورد و دیگر اعمال مشابه استفاده نمود. از طرف دیگر در طیف توصیفی، هدف کلی بدست آوردن یک شناخت از سیستمهای تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه دادههای بزرگ میباشد. اهداف پیش بینی و توصیفی با بهره گرفتن از روشها و تکنیکهای داده کاوی محقق میگردد. در شکل ۲-۳ انواع فعالیتهای داده کاوی مشخص می شود.
شکل ۲-۳ انواع فعالیتها و کاربردهای داده کاوی (مرادی، ۱۳۹۰)
۲-۳-۲-۱ روشهای داده کاوی پیش بینیکننده
هدف از انجام پیش بینی تعیین ترکیب خروجی با بهره گرفتن از رفتار موجود میباشد. در واقع رسیدن به یک نتیجه به وسیله اطلاعات موجود از داده ها میباشد. مشخصههای خروجی در این روش میتوانند عددی و قیاسی باشند. این استراتژی در بین استراتژی های داده کاوی از اهمیت خاصی برخوردار است و مفهوم کلیتری را نسبت به موارد دیگر دارد. همانطور که در شکل قبل نشان داده شد روشهای پیش بینیکننده به شرح ذیل میباشد:
۲-۳-۲-۱-۱ طبقه بندی
طبقه بندی[۴۸] در واقع ارزشیابی ویژگیهای داده ها و سپس اختصاص دادن آنها به مجموعه ای از داده های از پیش تعیین شده است. این متداولترین قابلیت داده کاوی میباشد. داده کاوی را میتوان با بهره گرفتن از داده های تاریخی برای تولید یک مدل یا نمایی از یک گروه بر اساس ویژگی داده ها به کار برد. سپس میتوان از این مدل تعریف شده برای طبقهبندی مجموعه داده های جدید استفاده کرد. همچنین میتوان با تعیین نمایی که با آن سازگار است برای پیشبینیهای آتی از آن بهره گرفت.
برای مثال برای طبقه بندی تخلفات و کلاهبرداریها در صنعت و اعتبارات بانکی، با بهره گرفتن از قابلیت طبقه بندی دادهکاوی، سیستم با بهره گرفتن از مجموعه ای از پیش تعریف شده از
داده ها، آموزش میبیند. مجموعه داده های مورد استفاده در این نمونه باید هم شامل مجموعههایی از داده های معتبر باشند و هم شامل مجموعههایی از داده های جعلی، از آنجا که این داده ها از پیش تعیین شده هستند، سیستم پارامترهایی را مییابد که میتوان از آنها برای تشخیص طبقه بندی متمایز استفاده کرد. بعد از تعیین پارامترها سیستم از آنها برای طبقه بندیهای بعدی بهره خواهد گرفت. در واقع سیستمهایی که بر اساس طبقه بندی داده کاوی می کنند، دو مجموعه ورودی دارند:
یک مجموعه آموزشی که در آن دادههایی که به طور پیش فرض در دستههای مختلف قرار دارند، همراه با ساختار دستهبندی خود وارد سیستم میشوند و سیستم بر اساس آنها به خود آموزش میدهد یا به عبارتی پارامترهای دستهبندی را برای خود مهیا می کند. دسته دیگر از ورودیهایی هستند که پس از مرحله آموزش و برای تعیین دسته وارد سیستم میشوند. تکنیکهای داده کاوی که برای دستهبندی بکار میآیند عموما شامل تکنیکهای شبکه عصبی[۴۹] و درخت تصمیم گیری[۵۰] هستند.
۲-۳-۲-۱-۲ رگرسیون
رگرسیون از مقادیر موجود برای پیش بینی مقادیر دیگر استفاده می کند. در سادهترین فرم رگرسیون، از تکنیکهای آماری استاندارد مانند رگرسیون خطی[۵۱] استفاده می کنند. متاسفانه بسیاری مسائل دنیای واقعی تصویر خطی سادهای از مقادیر قبلی نیستند. بنابراین تکنیکهای پیچیدهتری مانند رگرسیون لجستیک[۵۲]، درختهای تصمیم و یا شبکه های عصبی ممکن است برای پیش بینی مورد نیاز باشند.
مدلهای یکسانی را میتوان هم برای رگرسیون و هم برای طبقه بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را میتوان برای ساخت درختهای طبقه بندی و هم درختهای رگرسیون استفاده کرد. شبکه های عصبی را نیز میتوان برای هر دو مورد استفاده کرد.
۲-۳-۲-۱-۳ سریهای زمانی
پیش بینی از طریق سریهای زمانی[۵۳] برای مقادیر ناشناخته آینده، بر اساس یک سری از پیشگوییهای متغیر با زمان صورت میگیرد. این روش از نتایج معلوم قبلی برای اعمال پیشگوییهای بعدیاش بهره میبرد. مدلها باید دارای ویژگیهای مشخص زمانی مخصوصا به صورت سلسه مراتب دوره های زمانی (پنج یا هفت روز هفته، سیزدهم ماه از سال…)، فصلی، داده های تاریخی و توجه خاص به گذشته داشته باشند.
۲-۳-۲-۲ روشهای توصیفی داده کاوی[۵۴]
همانطور که گفته شد در طیف توصیفی، نهایت کار و هدف کلی بدست آوردن یک شناخت از سیستمهای تجزیه و تحلیل شده توسط الگوها و روابط آشکار در مجموعه داده های بزرگ میباشد. روشهای توصیفی به شرح زیر میباشد.
۲-۳-۲-۲-۱ خلاصه سازی[۵۵]
قبل از اینکه بتوان روی مجموعه ای از داده ها داده کاوی انجام داد تا یک مدل پیش بینی مناسب ایجاد شود، باید بتوان داده ها را به خوبی شناخت که برای شروع این کار میتوان از پارارمترهایی مثل میانگین، انحراف معیار و… استفاده کرد. ابزارهای تصویرسازی داده ها و گرافسازی برای شناخت داده ها و نقش آنها در آمادهسازی بسیار مفید و غیرقابل انکار میباشد. مثلا با بهره گرفتن از این ابزارها میتوان توزیع مقادیر مختلف داده ها را در یک نمودار مشاهده کرد و میزان دادههای دارای خطا را بطور تقریبی حدس زد.
مهمترین مشکل این ابزار این است که معمولا تحلیلها دارای تعداد زیادی پارامتر میباشند که به هم مربوط هستند و باید رابطه این پارامترها را که چند بعدی میباشد در دو بعد نمایش دهند، که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره میباشد.
۲-۳-۲-۲-۲ قوانین انجمنی[۵۶]
اساسا ارتباط میان مجموعهی اشیاء (چیزها) وابستگیهای جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش بینیهای مالی، سیاستهای بازاریابی، وقایع پزشکی و… می شود که توجه زیادی را در تحقیقات اخیر به خود جلب کرده است.
در این تکنیک رابطه وابستگی بین متغیرهای مختلف در پایگاه داده ها شناسایی می شود این روش بین مدیران بازاریابی و عمدهفروشان به نام سبد بازار معروف است. این روش یک حالت غیر نظارتی[۵۷] داده میباشد که به جستجو برای یافتن ارتباط در مجموعه داده ها می پردازد. یکی از کاربردیترین حالات تحلیل وابستگیها، تجزیه و تحلیل سبد بازار میباشد که در آن هدف یافتن کالاهایی است که معمولا به طور همزمان خریداری میشوند. این کار کمک می کند که خردهفروشان بهتر بتوانند کالای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند (مرادی، ۱۳۹۰).
۲-۵ خوشهبندی
فرایند گروهبندی مجموعهای از اشیاء را در رده اشیاء مشابه، خوشهبندی[۵۸] مینامیم.
در دادهکاوی، روشهای خوشهبندی، کل مجموعه دادهها را به گروه یا خوشههای نسبتا همگنی تقسیم میکند. دادهها بر اس
اس اصل به حداکثر رساندن تشابه در داخل خوشه و به حداقل رساندن شباهت خوشهها، گروهبندی میشوند، یعنی خوشهها به طوری که اشیاء درون یک خوشه با توجه به یکدیگر تشابه بالایی دارند، اما بسیار بیشباهت به اشیاء در خوشههای دیگر میباشند شکل میگیرند. تکنیکهای خوشهبندی، تجزیه و تحلیل داده را بدون استفاده از یک برچسب کلاس شناخته شده انجام میدهد. برخلاف تکنیکهای طبقه بندی، که به تجزیه و تحلیل دادههای نشاندار با کلاس اشیاء میپردازد، برچسبهای کلاس در دادههای آموزشی وجود ندارد، تنها به این دلیل که آنها در ابتدا شناخته شده نیستند. خوشهبندی برای تولید چنین برچسبهای کلاسی استفاده می شود. هر خوشهای که تشکیل شده است میتواند به عنوان یک کلاس از اشیاء مشاهده شود، که قوانینی از آن مشتق میشود.
در خوشهبندی ابتدا مجموعهای از دادهها را به گروههایی بر اساس تشابه تقسیم میکنیم و پس از آن برچسبهایی را به تعداد نسبتا کمی از گروهها، اختصاص میدهیم. مزیت مهم یک فرایند مبتنی بر خوشهبندی این است که به تغییرات سازگار است و به بدست آوردن ویژگیهای مفیدی که گروه های مختلف را از هم متمایز میکند کمک میکند (پراسد[۵۹] و همکاران، ۲۰۱۱).
۲-۵-۱ مزایای روش خوشهبندی
مزایای روش خوشهبندی عبارتند از:
-
- این روش را میتوان برای داده های گوناگون استفاده نمود.
با انتخاب درست اندازه فاصلههای گوناگون خوشهبندی را میتوان برای بیشتر داده ها استفاده کرد.
-
- خوشهبندی یک روش غیر مستقیم است.