همان طور که از رابطه بالا مشخص است، حاصل جمع تعداد مثبتهای درست و تعداد منفیهای درست، نشانگر تعداد نمونههایی است که توسط سیستم به درستی تشخیص داده شدهاند. مشکل استفاده از معیار صحت برای تشخیص مرجع مشترک، این است که این معیار در زمانی که دادهها نامتوازن هستند، معیار مناسبی نیست. زیرا در این حالت، ردهای را که در بین دادهها بیشترین آرا را دارد(رده اکثریت) را به تمام دادهها نسبت میدهد. درنتیجه معیار صحت منجر به مقدار بالایی میشود، درحالیکه هیچ یک از زنجیره اشارات هم مرجع یافت نشده است.
از آنجائیکه هدف این است که موتور یادگیری اشارههای هم مرجع را بدرستی تشخیص دهد، نتایج آزمایشات انجام شده در قالب معیارهای دقت، فراخوانی و معیار F1 مربوط به دادههای مثبت ارزیابی شدهاند.[۶۳] این معیارها توانایی سیستم را در شناسایی نمونههای مثبت ارزیابی میکند. معیار فراخوانی[۲۱۹] بالا، به این معناست که سیستم تعداد کمی خطای منفی نادرست داشته است. معیار دقت[۲۲۰] بالا، به این معناست که سیستم تعداد کمی خطای مثبت نادرست تولید کرده است. در حقیقت معیار FMeasure یا FB، یک میانگین هارمونیک[۲۲۱] میان پارامترهای فراخوانی و دقت میباشد و هدف اصلی یک سیستم تشخیص مرجع مشترک، بیشینه کردن این معیار میباشد. FMeasure بر اساس رابطه ۴-۲ محاسبه میشود.
رابطه (۴-۲)
در رابطهی فوق با افزایش B، تمرکز بر روی فراخوانی و با کاهش B، تمرکز بر روی دقت خواهد بود. زمانیکه B=1 در نظر گرفته شود، اهمیت دقت و فراخوانی به یک اندازه در نظر گرفته میشود. بنابراین F1، برابر خواهد بود با رابطه ۴-۳.
رابطه (۴-۳)
هر کدام از معیارهای فراخوانی و دقت نیز طبق رابطههای ۴-۴ و ۴-۵ محاسبه میشوند.
رابطه(۴-۴)
رابطه(۴-۵)
۴-۳-۴. نتیجه ارزیابی
دراین بخش، نتایج بدست آمده از اعمال الگوریتمهای یادگیری مورد آزمایش را بر روی دادههای پیکره لوتوس ارائه مینمائیم. در مورد پارامترهای مورد بررسی، از آنجائیکه برخی از مقادیر پارامترهای ورودی، برای الگوریتمهای پایهی منتخب ما، قابل پذیرش نبودند، با اعمال پیش پردازشهایی بر روی دادهها، پارامترهای پیش فرضی را در نظر گرفتیم. به عنوان نمونه، از جملهی این پارامترها، فاصلهی میان دو اشاره(فاصله جملات و تعداد واژگان میان دو اشاره) میباشد.
۴-۳-۴-۱.نتایجِ بدست آمده
همانطور که پیشتر نیز گفته شد، عملکرد اجرای الگوریتمهای یادگیری، به گونهای نیست که بتوان به سادگی یکی را بر دیگری ارجح دانست. لذا برای اینکه برای یک مسئله یادگیری زبان پارسی، یادگیر مناسب انتخاب نمائیم؛ باید روشهای یادگیری متفاوتی را به صورت عملی بر آن آزمایش کنیم. به همین منظور سه الگوریتم یادگیری پایه را در محیط Clementine و MALLETمورد آزمایش قرار داده و آنها را با یکدیگر مقایسه نمودیم. جدول۴-۵ و شکل ۴-۶، بهترین نتایج بدست آمده از هر کدام از الگوریتمها را نمایش داده و مقایسه می نمایند.
جدول۴-۵: نتایج ارزیابی الگوریتمهای پایه مورد بررسی | |||
دقت | فراخوانی | معیار F1 | |
شبکه عصبی | ۳۶.۳۹ | ۳۴.۶۶ | ۳۹.۴۰ |
SVM | ۲۹.۳۸ | ۳۱.۴۴ | ۳۰.۳۸ |
درخت تصمیم | ۳۹.۵۵ | ۲۲.۴۱ | ۲۸.۶۰ |
شکل ۴-۶: نمودار مقایسه الگوریتمهای پایه مورد بررسی |
هر کدام از الگوریتمهای پایه در شرایط متفاوت، سنجیده و مقایسه شدهاند. همان طور که در جدول ۴-۶، مشاهده مینمایید، یادگیر ماشین بردار پشتیبان، با هستههای متفاوت(RBF، حلقوی، چندجملهای با درجههای ۲ تا ۸) مورد بررسی قرار گرفته است. نتایج حاصل از بررسی این الگوریتم نشانگر آن است که در هسته چند جملهای، با افزایش درجه چند جملهای، عموماً هر دو معیار دقت و فراخوانی نیز افزایش پیدا میکند و به دنبال آنها، معیار F1 نیز ارتقاء مییابد. هرچند این ارتقاء ناچیز است، اما نتایج نشان میدهد، یادگیر SVM در بهترین شرایطش دارای هستهی چند جملهای با درجه ۸ میباشد.