مبنای کاری SVM دسته بندی خطی داده ها است، ودر تقسیم خطی داده ها سعی بر این دارد که خطی را به عنوان ابرصفحه[۱۳۰] انتخاب کند که حاشیه اطمینان بیشتری داشته باشد.جهت پیدا کردن خط بهینه با حداکثر حاشیه از روش برنامه ریزی درجه دو[۱۳۱](QP) که روش شناخته شده ای در حل مسائل محدودیت دار است، استفاده می شود.
قابلیت به کارگیری توابع کرنل یکی از نقاط قوت کلیدی ماشینهای بردار پشتیبان می باشد و باعث می شود که آنها انعطاف بالایی برای حل انواع مختلف مسائل با دشواریهای گوناگون داشته باشند. با اینکه ازSVM ها در زمینه طبقه بندیهای خطی استفاده می شود، بهره گیری آنها از لم کرنل به آنها این توانایی را میدهد که مسائل با روابط غیرخطی را نیز حل کنند. در واقع ماشین های بردار پشتیبان با نگاشتن داده ها به فضای ویژگی[۱۳۲] همانند یک مسئله خطی با مسئله برخود می کنند و در عین حال توانایی تفکیک مسائل خطی وغیرخطی را همزمان دارا می باشند. در واقع ماشین های یادگیری صرفاً به دنبال یافتن یک ابرصفحه بهینه در فضای ویژگی هستند خواه ابعاد داده ها کوچک وخواه بسیار بزرگ باشد.در رگرسیون نیز SVM ها پس ازنگاشت به فضای ویژگی،مسائل پیچیده را به صورت رگرسیون خطی حل مینمایند. در ماشین بردار پشتیبان ،ماشین یادگیری به گونه ای آموزش داده می شود که تعدادی از داده های تعیین کننده در مرز کلاس ها تشخیص داده شوند ومرزهای تفکیک را تشکیل دهند. تعداد این داده ها که [۱۳۳] بردار های پشتیبان نامیده می شوند همواره به کمترین مقدار تقلیل داده می شوند وبه همین دلیلSVM ها را ماشین های کرنل خلوت می نامند. واضح است که این بهینه سازی به این دلیل است که تنها بردارهای پشتیبان در فاز تست حاضر میشوند وتعداد بردارهای پشتیبان است که پیچیدگی الگوریتم را رقم می زند.
برخی از زمینه های کاربردی ماشین بردار پشتیبان :
پزشکی
دسته بندی انواع سلول ها، میکروبها ونمونههای آزمایشگاهی
بهبود کیفیت بیمارستان
بهینه سازی پیوند اعضا
بانکداری
تخمین ریسک وام
بازبینی امضا از چک ها
اکتشاف تقلب در کارت اعتباری
سیستم های پردازش وجه مشتری
حمل ونقل
کنترل هواپیمای بدون خلبان
شبیهسازی مسیر
هدایت جنگ افزارها
روشSVM یک روش آماری غیر پارامتریک نظارت شده است و بر اساس این فرض عمل می کند که هیچ گونه اطلاعی از چگونگی توزیع مجموعه داده ها وجود نداشته باشد .ویژگی اصلی این روش توانایی بالادر استفاده از نمونه های تعلیمی کمتر و رسیدن به دقت بالاتر در مقایسه با سایر روشهای طبقه بندی پیشین است.
۲-۱۵) ماشین بردار پشتیبان دوکلاسه :
ماشین بردار پشتیبان در واقع یک طبقه بندی باینری است که دو کلاس از داده ها را با بهره گرفتن از یک مرز خطی از هم جدا می کند و وابسته به خانواده طبقه بندی های خطی تعمیم یافته است. SVMدادهها را با عبور یک صفحه (مرز خطی) و با بهره گرفتن از تمامی باندها و به کارگیری یک الگوریتم بهینهسازی طبقه بندی می کند. بدین گونه که ابتدا نمونه هایی که مرز کلاس ها را تشکیل می دهند مشخص میشوند ، به عبارت دیگر تعدادی از نقاط آموزشی که کمترین فاصله تا مرز تصمیم گیری را دارند میتوانند به عنوان بردار پشتیبان در نظر گرفته شوند.در این روش با افزایش بعد داده ها نتیجه مطلوبتری حاصل می گردد. در واقع درصورتی که در فضای طیفی ، کلاس ها تداخل داشته باشند، داده ها به فضایی با ابعاد بیشتر برده می شوند، به گونه ای که تمایز آنها میسر گردد .[۳۶, ۵۱]
هدف اصلی این الگوریتم یافتن بیشترین فاصله بین دو کلاس و در نتیجه افزایش دقت طبقه بندی است در حالی که خطای تعمیم نیز تا حد امکان کاهش پیدا کند .
در شکل (۱) خطوط سعی در تفکیک وطبقهبندی دو کلاس از داده ها دارند. همانطور که دیده می شود دو خط به درستی این دو کلاس داده را از یکدیگر تفکیک کرده اند ولی این عمل را به درستی انجام نداده است، براساس مدل شبکه هایعصبیچندلایه خطوط به عنوان طبقه کننده های مناسب وتفکیک کننده های بهینه شناسایی می شوند، ولی ماشین بردار پشتیبان(SVM) شرایطی را برای بهینگی خطوط مد نظر قرار می دهد ، واین به خاطر انتخاب و شناساییطبقه بندی کننده هایی است که قابلیت تعمیم بیشتری داشته باشند.
شکل ۲-۶ ) طبقه بندی کلاس داده ها توسط ماشین بردار پشتیبان
درشکل (۲) طبقه بندی کلاس داده ها با همان سه خط صورت گرفته و براساس شکل متوجه میشویم که قدرت طبقه بندی وتفکیک خط جدا کننده پابرجا است و در این حالت توانایی تفکیک درست را ندارد و این شرایط توانایی ماشین بردار پشتیبان در تعیین توابع تصمیم وشناسایی خطوطی که قدرت طبقه بندی با دقت بالاتر را دارا هستند وازتعمیم پذیری بیشتری برخوردار هستند، را نشان می دهد .
شکل ۱-۷ ) طبقه بندی بهینه کلاس داده ها توسط ماشین بردار پشتیبان
۲-۱۶) ماشین بردار پشتیبان با حاشیه ثابت[۱۳۴]
این نوع svm بیانگر ساده ترین مدل است، وکاربرد آن در شرایطی است که داده های دو کلاس به صورت خطی قابل تفکبک باشد.L مرزتصمیمی است که داده های دو کلاس را از هم جدا می کو موازی با Lدر فاصله یکسانی از آن قرار دارند واز نزدیکترین نقاط بهL میگذرند که به این نقاط ، بردارهای پشتیبان می گویند. فاصله بین و نشان دهنده حاشیه مرز تصمیم است و به طور کلی ، هدف SVMیافتن مرز تصمیمی است که علاوه بر طبقه بندی داده های دو کلاس با حداقل خطا ، بیشترین حاشیه را نیز دارا باشد.[۵۷]
شکل ۲-۸) ماشین بردار پشتیبان با حاشیه ثابت
در صورتی که i=1,…,m و ها مجموعه داده های آموزش باشند و داده ها در فضای n بعدی قرار داشته باشند به طوری که باشد و ۱}و{-۱ϵ، نمایانگر کلاس هر داده باشد، در صورتی که داده ها به صورت خطی قابل تفکیک باشند، میتوان آنها را توسط یک فوق صفحه خطی از یکدیگر جدا نمود، که معادله این فوق صفحه به صورت زیر بیان می شود.
(۲-۲۷)
WX+ b = 0
Wتشکیل دهنده بردار وزن است ودرفضای n بعدی قرار دارد وb یک اسکالر است.WX بیانگر ضرب داخلی دو بردار است. بردار Wواسکالر b موقعیت فوق صفحه را مشخص می کنند وداده ها به صورت زیر از یکدیگر مجزا می شوند.
(۲-۲۸)
W+b > 0 if = 1
W+b < 0 if
فاصله هر داده نظیر تا فوق صفحه ،توسط معادله زیر به دست می آید .
(۲-۲۹)
SVM مقادیرWو b را به گونه ای تعیین می کند که فوق صفحه مذکور عریضترین حاشیه را در اطراف خود داشته باشد. به عبارت دیگر مرز تصمیم بهینه را می توان با حل مساله بهینه سازی زیر محاسبه نمود.
(۲-۳۰)
Maximize
Subject:
این مساله از طریق یافتن ضرایب لاگرانژ وتشکیل یک مسالهQP محدب ، قابل حل است . با تشکیل معادله لاگرانژ وثانویه مساله ، معادله زیر حاصل می شود .
(۲-۳۱)
MAX
Subject to :
ها ضرایب لاگرانژ هستند. پس از حل مساله بهینه سازی فوق،ضرایب لاگرانژ معین می گردند.این ضرایب برای نقاط بردار پشتیبان بزرگ تر از صفر وبرای بقیه نقاط صفر هستند.با مشخص شدن ضرایب بردار wمعین می شود .
(۲-۳۲)
پس از یافتن W مقدارb با بهره گرفتن از رابطه زیر به ازای هر یک از بردارهای پشتیبان ،محاسبه شده ومقدار b نهایی با میانگین گیری ازb های محاسبه شده به دست می آید .
دانلود پایان نامه درباره تحلیل مقایسه ای کارآمدی مدل های رگرسیون بردار پشتیبان، شبکه عصبی و۹۳ ARIMA ...