جمعآوری اطلاعات:
در جمعآوری اطلاعات مربوط به متغیرهای ورودی توجه نکات زیر بسیار حائز اهمیت است:
هزینه جمعآوری اطلاعات، چه از نظر زمانی و چه از نظر قیمتی، نباید غالب بر منافع آن باشد.
اطلاعات باید در دسترس باشند.
اطلاع میبایست از منابع معتبر جمعآوری گردند.
روش محاسبهی داده های بنیادی، باید در طول زمان ثابت باشد.
داده های بنیادی بعد از انتشار اولیه، اصلاح نگردیده باشند.
پیشپردازش اطلاعات:
به منظور حداقل نمودن سطح شوک، پررنگ کردن ارتباطهای مهم، شناسایی روندها و هموارسازی توزیع متغیرها، معمولاً با دو روش تفاضل و لگاریتم طبیعی داده ها را پیشپردازش مینماییم.
آموزش، تست و اعتبارسنجی:
مجموعه آموزش، بزرگترین بخشی است که شبکه عصبی به منظور یادگیری الگوی داده ها از آن بهره میگیرد.
مجموعه تست، محدودهای از ۱۰% تا ۳۰% از مجموعه آموزش است که به منظور بررسی قابلت تعمیم شبکه مورد استفاده قرار میگیرد. برای انتخاب مجموعه تست معمولاً از دو روش انتخاب تصادفی و مشاهدات نزدیکتر (مشاهداتی که به دنبال مجموعه آموزش میآیند) استفاده می شود. مزیت مدل تصادفی در کاهش خطر استفاده از بازار یکسان و مزیت روش دوم، در لحاظ کردن مشاهدات نزدیکتر است.
مجموعه اعتبارسنجی، مجموعه ای از جدیدترین مشاهدات است که منظور بررسی نهایی مدل از آن استفاده می شود. لازم به ذکر است که مجموعه اعتبارسنجی باید طوری انتخاب شود که برای انتخاب مجموعه آموزش و تست، داده به اندازه نیاز، وجود داشته باشد.
پویایی عصبی[۱۲۱] و معماری شبکه:
به منظور تشریح راهی که شبکه عصبی در آن آمادهسازی میگردد، از دو مفهوم پویاییعصبی و معماری شبکه استفاده می شود. پویاییعصبی، خصوصیات فردی نرونها از قبیل تابع فعال سازی و معماری شبکه عصبی، ویژگیهایی از قبیل تعداد نرونها و تعداد لایه های پنهان را دربرمیگیرد.
از منظر تئوریک شبکه عصبی با یک و یا دو لایهی پنهان و تعداد مناسب نرون تخمین هر تابع پیوستهای را دارا میباشد و یک شبکه با بیش از چهار لایه کمتر میتوانند موجب بهبود شبکه عصبی گردند. اما برای پیدا کردن تعداد نرون بیهنه، هیچ فرمول جادویی وجود ندارد و با وجود روشهایی از قبیل رابطه (m تعداد نرون لایهی خروجی و n تعداد نرون لایهی ورودی) که توسط مسترز[۱۲۲] مطرح شد، عمدتاً از آزمون و خطا برای پیدا کردن این نرونها استفاده می شود
معیار ارزیابی:
میانگین مجذور خطا، متداولترین تابعی است که در شبکه عصبی سعی در کاهش آن می شود. اما از توابعی مانند حداقل قدر مطلق انحرافات، حداقل توان چهارم و حداقل مربعات نامتقارن نیز، در نرمافزارها استفاده میگردد.
آموزش شبکه عصبی:
آموزش شبکه، فرایندی است که در طی آن بردار وزنها و بایاس به منظور پیدا حداقل مطلق[۱۲۳] تابع خطا و افزایش قابلیت تعمیم شبکه عصبی تعدیل میگردند. در طی آموزش شبکه عصبی، وجود حداقلهای منطقهای[۱۲۴] ممکن است مانع رسیدن شبکه به حداقل مطلق گردند، اما استفاده از روش اندازه حرکت[۱۲۵] و یا بهره گیری از پنج تا ده مجموعه تصادفی از وزنهای آغازین، می تواند منجر به افزایش احتمال رسیدن به حداقل مطلق گردد. بعد از آموزش شبکه عصبی، شبکه ای با کمترین میزان خطا در مجموعهی تست مبنای استفاده مرحله بعد قرار میگیرد.
کاربرد مدل:
اگرچه کاربرد مدل به عنوان یک مرحله مجزا لحاظ گردیده است، اما میتوان اذعان داشت دقت در مراحل قبلی لازمهی کاربرد شبکه عصبی میباشد و در حقیقت ثمرهی مراحل قبل در کاربرد مدل برداشت خواهد شد.
۲-۱۳-۹) الگوریتم یادگیری Levenberg- Marquardt
این الگوریتم یادگیری یکی از سریع ترین الگوریتمهای یادگیری است که مانند روشهای شبه نیوتن، با بهره گرفتن از عدم محاسبهی ماتریس Hessian ، سعی در کاهش محاسبات دارد. زمانیکه تابع کارآیی به صوت مجموع مربعات باشد ماتریس Hessian به روش زیر قابل تخمین است:
J بیانگر ماتریس ژاکوبین است که شامل مشتقات اول از خطاهای شبکه نسبت به وزنها و بایاسها است و e بیانگر بردار خطای شبکه میباشد.
ماتریس ژاکوبین از طریق تکنیکهای استاندارد BP قابل محاسبه است و پیچیدگیهای محاسباتی آن نسبت به محاسبه ی Hessian بسیار کمتر است.
الگوریتم L-M از تقریب زیر برای محاسبهی Hessian استفاده می کند.
زمانی که مقدار عددی صفر است، این روش به یک روش نیوتن با تقریب ماتریس Hessian و زمانی که مقدار یک عدد بزرگ است، این روش به روش گرادیان توأم با گامهای کوچک تبدیل می شود و با توجه به دقیقتر بودن روش نیوتن نسبت به گرادیان توأم، میزان بعد از هر گام موفق (کاهش تابع کارآیی) کاهش مییابد و فقط زمانی افزایش مییابد که گام آزمایشی، تابع کارآیی را افزایش دهد.
۲-۱۳-۱۰) مزایا و معایب شبکه عصبی
مزایا:
عناصر پردازشی با توان پردازش موازی
شبکه های عصبی توان تخمین رگرسیون حداقل مربعات معمولی، حداقل مربعات غیرخطی، رگرسیون ناپارامتریک و تحلیل سریهای فوریر را دارا میباشند.[۴۱]
شبکه های عصبی تخمین زنندهی عمومی از توابع و مشتقات آن میباشد.[۴۱]
شبکه های عصبی با توجه به پاسخهای محیطی میتوانند یاد گیرند که چگونه باید به ورودی ها پاسخ دهند.
شبکه های عصبی بر محدودیت خطی بودن مدلهای سنتی غلبه می کنند.
شبکه های عصبی نیازمند پیش فرضهای مدلهای سنتی نمی باشد.[۶۷]
معایب:
در شبکه عصبی امکان محاسبهی چیزی شبیه ضرایب رگرسیون برای متغیرهای ورودی وجود ندارد.[۴۷]
شبکه عصبی، در مدلهای خطی نتایج پیچیدهای از خود نشان میدهد.[۶۱]
فرایند یادگیری نیازمند شمار بالای نمونه برای آموزش است، بنابراین زمان تخمینزده شده برای عملکرد شبکه های عصبی معمولاً بالاست.[۴۷]
۲-۱۴) ماشین بردار پشتیبان (SVM) [۱۲۶]
روش ماشین بردار پشتیبان یکی از روشهای یادگیری ماشینی است که بر مبنای تئوری یادگیری آماری وپنیک[۱۲۷] در دهه ۹۰ میلادی توسط وپنیک و همکارانش ارائه گردید. در SVMاز اصول کمینه سازی ریسک ساختاری (SRM)[128] استفاده شده است، در حالی که سایر روشها از اصول کمینه کردن ریسک تجربی (ERM)[129] بهره می برند.[۵۱]
از ماشین بردار پشتیبان به طور کلی در مسائل طبقه بندی دو یا چند کلاسه و رگرسیون استفاده می شود. مانند بسیاری از روشهای یادگیری ماشینی، درماشین بردار پشتیبان نیز فرایند ساخت مدل شامل دو مرحله آموزش وآزمایش می باشد. در انتهای فاز آموزش ،قابلیت تعمیم یابی مدل آموزش داده شده با بهره گرفتن از داده های آزمایش ارزیابی می شود .
در روشهایی مانند شبکه های عصبی مصنوعی برای رسیدن به بهترین جواب از اصول کمینهسازی ریسک تجربی استفاده می شود، با کمینه کردن ریسک تجربی کارایی مناسب مدل بر روی داده های آموزش تضمین می شود، اما تضمینی برای قابلیت تعمیم یابی مناسب وجود ندارد، به همین دلیل در این روش طراحی مناسب شبکه برای بهبود عملکرد تعمیم یابی مدل ضروری است. هدف از کمینه سازی ریسک ساختاری ، بهینه کردن قابلیت تعمیم یابی همزمان با کمینه کردن ریسک تجربی است.