(۴‑۴)
به جز در مواردی محدود، معمولاً P(x,y) را نداریم و مجبوریم از خطای تجربی (۴-۵) به عنوان برآوردی از ریسک مورد انتظار استفاده کنیم.
(۴‑۵)
قضیه VC؛ اگر h بعد VC تابع f باشد، آنگاه با احتمال برای ریسک مورد انتظار داریم:
(۴‑۶)
اگرچه معمولاً محکم نیست و در کاربرد به طور مستقیم استفاده نمی شود، ولی از لحاظ مفهومی بسیار مفید است. این حد منجر به پیدایش اصل کمینه سازی ریسک ساختاری شد.
کمینهسازی خطای ساختاری به جست و جوی تابعی می پردازد که کران بالای (۴-۶) را کمینه کند. حد (۴-۶) دو مؤلفه دارد که بایستی کمینه شوند. به این ترتیب برای کمینه کردن مؤلفه VC Confidence، در میان خانواده توابع بایستی خانوادههایی با کمترین بعد VC و برای کمینه کردن ریسک تجربی، از میان این خانواده تابعی که ریسک تجربی خانواده مربوطه را کمینه می کند بایستی انتخاب کرد. یک رهیافت ساده برای کمینه کردن ریسک ساختاری این است که همیشه از خانواده توابع خطی که دارای کمترین VC Confidence در بین تمام توابع میباشند، استفاده کرد. بنابراین طبقه بندی، که ریسک ساختاری را کمینه می کند، تابعی خطی است که ریسک تجربی را کمینه کند. SVM از این رهیافت استفاده می کند و همواره در خانواده توابع خطی در جستوجوی تابعی با کمترین ریسک تجربی است.
ماشینهای بردار پشتیبان (SVM)
SVM یک نوع سیستم یادگیری است که هم برای دستهبندی داده های ورودی و هم برای تخمین و برآورد تابع برازش داده ها به کار میرود، به طوری که کمترین خطا در دستهبندی داده ها و تابع برازش رخ دهد. داده ها کلاً به سه دسته آموزشی، صحتسنجی و آزمون تقسیم میکنیم به طوری که داده های آموزشی باعث آموزش ماشین بردار پشتیبان میشوند، داده های صحتسنجی به واسنجی پارامترهای ماشین می پردازد و در نهایت از این ماشین برای طبقه بندی یا برآورد داده های آزمون استفاده می شود. این روش بر مبنای تئوری بهینهسازی مقید است که از اصل کمینهسازی خطای ساختاری استفاده کرده و منجر به یک جواب بهینه کلی میگردد (Vapnik, 1998). که این اصل در بالا به طور خلاصه توضیح داده شده است و برای توضیحات بیشتر به منابع رجوع شود.
طبقه بندی ماشین بردار پشتیبان
در آغاز دستهبندی داده ها را برای حالتی که به صورت خطی جداپذیر باشند بررسی میکنیم. اگر نمونهها به صورت خطی جداپذیر باشند، باید دنبال بهترین خط یا ابرصفحهای بود که بتواند دو دسته را از هم تفکیک کند.
قضیه ابرصفحه جداساز؛ اگر C و D دو مجموعه محدب باشند که با هم هیچ اشتراکی ندارند آنگاه وجود دارد که و . ابرصفحه را ابرصفحه جداساز برای مجموعههای C و D مینامند.
در عبارت w.x+b=0، بردار w را بردار وزن مینامند که بر ابرصفحه جداکننده، عمود بوده و b مقدار پیشقدر[۲۹] میباشد. صفحات مرزی به صورت زیر تعریف میشوند:
(۴‑۷)
الگوهایی که بر روی این صفحات قرار دارند، نزدیکترین فاصله را با ابرصفحه بهینه دارند که به این الگوها بردار پشتیبان میگویند. ناحیهی بین دو ابرصفحه H+ و H- را حاشیه[۳۰] یا ناحیه مرزی میگویند.
تابع طبقه بندی در روش SVM به شکل زیر است:
(۴‑۸)
که برای یافتن ابرصفحه بهینه میبایستی مسأله بهینهسازی محدب زیر را حل کرد:
(۴‑۹)
هدف ابرصفحه بهینه این است که از بین تمام ابرصفحههایی که قشر محدب دو کلاس را از هم جدا می کنند، بهترین آنها ابرصفحهای است که با بیشترین حاشیه، قشرهای محدب دو کلاس را جدا کند. برای جلوگیری از مقیاس شدن w و b، به طور قراردادی اندازه تابع تصمیم را به ازای نزدیکترین نمونه با آن برابر ۱ در نظر میگیریم:
(۴‑۱۰)
از طرفی فاصله هر نمونه تا ابرصفحه برابر است با:
(۴‑۱۱)
به این ترتیب میتوان مشاهده کرد که فاصله نزدیکترین نمونهها از هر کلاس برابر و عرض حاشیه برابر با است. پس میتوان با بیشینه کردن حاشیه، مقدار را کمینه کرد و با قرار دادن ||w||2 به جای ||w||، مسأله معادلی حاصل می شود که تابع هدفش هم مشتقپذیر و هم هموار است. قید نیز به نمونهها اجازه ورود به حاشیه را نمیدهد. بنابراین به راحتی میتوان برای تمام مسائل بهینهسازی مقید، تابع لاگرانژ را تعریف کرد. شکل ذیل حاشیه و طبقه بندی دو دسته را با هم نشان میدهد.
Class 1
Class 2
شکل ۴‑۳: نمایشی از طبقه بندی داده ها به دو دسته و حاشیه اطمینانی که داده های دو دسته با هم دارند
برای حل این مسأله بهینهسازی، تابع لاگرانژی زیر را تشکیل میدهیم و ضرایب لاگرانژ را خواهیم یافت:
(۴‑۱۲)
برای اینکه جواب را پیدا کنیم، باید این جواب در شرایط [۳۱]KKT صدق کند که در ذیل مشاهده می شود. شرایط KKT روش لاگرانژ را برای حالت هایی که قیود به صورت نامساوی باشند، تعمیم میدهد.
(۴‑۱۳)
با قرار دادن مقدار w از رابطه قبل در تابع لاگرانژ، به مسالهی دوگان[۳۲] برای بهینهسازی مقید خواهیم رسید:
(۴‑۱۴)
که:
(۴‑۱۵)
حل این مسأله بهینهسازی دوگان، با بهینهسازی درجه دوم[۳۳] میسر است و ضرایب لاگرانژ با بهره گرفتن از این روش بدست میآیند.
هر الگویی ضریب لاگرانژ مربوط به خود را دارد. الگوهایی که ضریب لاگرانژ آنها بزرگتر از صفر است، همان بردار پشتیبان میباشند.
(۴‑۱۶)
که xsv(+1) و xsv(-1) به ترتیب، بردارهای پشتیبان قرار گرفته در دسته با برچسب ۱+ و ۱- هستند. پس از تعیین بردارهای پشتیبان و مقدار پیشقدر، تابعِ ممیّز که دو کلاس را از هم جدا می کند می تواند به صورت زیر نوشته شود:
(۴‑۱۷)
پس با بهره گرفتن از بردارهای پشتیبان میتوان تابع ممیّز را ساخت و با بهره گرفتن از بردارهای پشتیبان و تابع ممیّز میتوان فهمید که داده های آزمایشی در کدام دستهبندی قرار میگیرند. پس دیگر آن دسته از داده های آموزشی که بردار پشتیبان نیستند، به دردی نمیخورند و میتوان آنها را حذف کرد.