TP
رویگردان
TN
FN
غیر رویگردان
با توجه به ماتریس آشفتگی سه معیار زیر برای دقت دستهبند قابل محاسبه است:
در این پروژه ما دقت Total Accuracy را به عنوان مقدار تابع برازندگی در نظر گرفتهایم.
معیار توقف: الگوریتم به تعداد مشخص ۵۰ مرتبه تکرار میشود.
دیگر پارامترهای الگوریتم ژنتیک بر مبنی روش آزمون و خطا تنظیم شدند که به قرار زیر است:
- اندازه جمعیت: ۵۰ عضو
- تعداد تکرار: ۵۰ مرتبه
- احتمال تقاطع: ۸۰ درصد
- احتمال جهش: ۲۰ درصد
- انتخاب والدین: تصادفی
- انتخاب جمعیت اولیه: تصادفی
الگوریتم ژنتیک فوق برای بهینهسازی ساختار مدل پیشنهادی فاز اول برای پیشبینی رویگردانی مشتری در صنعت مخابرات، بر روی دو مجموعه داده متفاوت اعمال شد. در ادامه توضیحی از دادههای استفاده شده در مسئله آورده شده است.
دادهها
در این تحقیق برای پیشبینی رویگردانی مشتریان در صنعت مخابرات از دو مجموعه داده متفاوت استفاده کردهایم. مجموعه اول، دادههای مربوط به شرکت تالیا یکی از اپراتورهای تلفن همراه داخل کشور است؛ در حالی که مجموعه دیگر دادههای مسابقات مدلسازی رویگردانی است که در سال ۲۰۰۳ در دانشگاه دوک در دورهام برگذار شده است. اگرچه هر دو پایگاه داده مربوط به مشتریان تلفن همراه در صنعت مخابرات هستند ولی تفاوتهایی دارند که پس از معرفی هر دو مجموعه داده نمایان میشوند.
دادههای اپراتور تالیا
این مجموعه داده شامل اطلاعات مربوط به ۳۱۵۰ مشتری است که در یک دوره زمانی ۱۲ ماهه از آغاز شهریور ۱۳۸۶ تا پایان مرداد ۱۳۸۷ به تفکیک ماه جمع آوری شده است. این مشتریان از میان گروهی انتخاب شدهاند که حداقل در ۲ ماه اول دوره مورد بررسی اقدام به رویگردانی نکرده باشند؛ بدین ترتیب این مجموعه داده فاقد مقادیر گمشده خواهد بود. پایگاه داده بدست آمده دارای ۱۱ ویژگی با شرح زیر است:
- Call Failure: تعداد تماسهای بینتیجه.
- Complains: شکایات داشتن مشترک از اپراتور.
- Subscription Length: طول دوره ارتباط با اپراتور.
- Charge Amount: میزان اعتبار شارژ شده توسط مشترک.
- Seconds of Use: طول زمان مکالمات انجام شده.
- Frequency of Use: تعداد تماسهای گرفته شده توسط مشترک.
- Frequency of SMS: تعداد پیامکهای ارسالی.
- Distinct Called Numbers: تعداد شمارههای متفاوتی که مشترک با آنها تماس گرفته است.
- Age Group: گروه سنی (۱= کمتر از ۱۵ سال، ۲= بین ۱۵ و ۳۰ سال، ۳= بین ۳۰ و ۴۵ سال، ۴= بین ۴۵ و ۶۰ سال، ۵= بالاتر از ۶۰ سال).
- Tariff Plan: نوع طرح خدماتی مورد استفاده (۱= دارای اینترنت، ۰= فاقد اینترنت)
- Status: وضعیت مشترک (۱= فعال، ۲= غیر فعال).
این مجموعه داده همچنین دارای برچسب رویگردانی برای تمامی متشریان مورد بررسی است. منظور از مشتری رویگردان کسی است که در طول دوره مورد بررسی به فروش و واگذاری سیمکارت خود به شخص دیگر مبادرت ورزیده است.
دادههای مسابقات مدلسازی رویگردانی دانشگاه دوک
دانشگاه دوک در سال ۲۰۰۳ مسابقهای را در بخش CRM خود تحت عنوان مسابقات مدلسازی رویگردانی[۱۷۹] تدارک میبیند. دادههای این مسابقه به صنعت بیسیم شرکت مخابرات مربوط میشود و شامل حجم بالایی از اطلاعات جامعی در مورد تعداد زیادی از مشتریان است. این اطلاعات جامع شامل ۱۷۱ ویژگی برای هر مشترک است. در این مجموعه داده نیز مشتریان از میان کسانی انتخاب شدهاند که حداقل ۶ ماه در شرکت بودهاند. مشتریان در طول ماههای جولای، سپتامبر و نوامبر سال ۲۰۰۱ و ژانویه سال ۲۰۰۲ نمونهبرداری شدهاند. برای هر مشتری، ویژگیها و یا به عبارت دیگر متغیرهای پیشگو بر مبنای ۴ ماه گذشته محاسبه شدهاند. در این مجموعه داده، مشتری رویگردان به کسی گفته میشود که در دوره ۳۱ تا ۶۰ روز پس از انتخاب شرکت را ترک کرده باشد.
به دلیل تعداد بسیار زیاد ویژگیها و نمونهها و همچنین وجود مقادیر گم شده در میان دادهها لازم است قبل از استفاده از دادهها، اقدامات پیشپردازش بر روی دادهها انجام شود.
پیشپردازش
اقداماتی که در مرحله پیشپردازش برای آمادهسازی دادهها لازم است انجام شود به قرار زیر است:
- انتخاب نمونه[۱۸۰]: به دلیل تعداد بیش از اندازه نمونهها در این پایگاه داده و برای جلوگیری از بیشبرازش[۱۸۱]، عمل انتخاب نمونه را به گونهای انجام میدهیم که تقریبا توزیع یکسانی از نمونههای هر دو کلاس در نمونه انتخاب شده وجود داشته باشد. بنابراین، از میان دادههای اصلی با در نظر گرفتن معیار ذکر شده تعداد ۱۵۰۰ نمونه به تصادف انتخاب کردیم.
- انتخاب ویژگی[۱۸۲]: اگرچه فرایند انتخاب ویژگی در ساختار مدل پیشنهادی این تحقیق قرار دارد ولی از آن جایی که از میان ۱۷۱ ویژگی موجود در این پایگاه داده تعدادی از آنها بالای ۷۰% دارای مقادیر گم شدهاند و همچنین تعدادی نیز دارای مقادیری یکنواخت و یا با پراکندگی بسیار بالا هستند، لازم است با انتخاب ویژگی اولیه در مرحله پیشپردازش این ویژگیها شناسایی و حذف شوند. برای انجام این کار از نرمافزار دادهکاوی SPSS Clementine استفاده کردیم؛ نحوه پیادهسازی پیشپردازش در این نرمافزار و نتیجه بدست آمده در شکل ۳-۵ قابل مشاهده است. چنانچه در شکل نیز مشخص است، خروجی فرایند انتخاب ویژگی لیست مرتب شدهای از ویژگیهاست که به ترتیب اهمیت قرار گرفتهاند. همچنین ویژگیهای دارای مقادیر گمشده زیاد به همراه آن ویژگیهای دستهای که تقریبا در یک دسته توزیع شدهاند و یا دارای پراکندگی بالایی هستند در بخش مجزایی نشان داده شدهاند.