روش دو نیمه کردن[۱۱۹]
این روش برای اندازه گیری همسانی درونی در یکبار اجرای آزمون جهت بررسی روابط بین دو نیمه همان آزمون به کار میرود. روش کار به این قرار است، ابتدا آزمون واحدی بر روی گروهی از آزمودنیها اجرا می شود. سپس آن را با بهره گرفتن از روشهای موجود (فرد و زوج، از وسط دو نیمه کردن، زیر مجموعههای جور شده تصادفی) به دو نیمه که از نظر محتوای آزمون و مشخصههای آماری سوال معادل هستند، تقسیم می کنند (میلر، ۲۰۱۰).
الف) دو نیمه کردن متداول
در صورت یکسانی واریانس دو نیمه، ضریب همبستگی دو نیمه محاسبه می شود. این ضریب، اعتبار یکی از دو نیمه آزمون است. برای محاسبه ضریب اعتبار کل آزمون از فرمول پیشگویی اسپیرمن – براون استفاده می شود.
: ضریب اعتبار دو نیمه آزمون (همبستگی دو نیمه آزمون)
: ضریب اعتبار کل آزمون
ب) روش رولون[۱۲۰]
در صورت عدم یکسانی واریانس دو نیمه آزمون، میتوان ضریب اعتبار آزمون را با بهره گرفتن از واریانس
تفاوت نمرات دو نیمه آزمون حساب کرد. این روش بیان می کند که چقدر از واریانس مشاهده شده ناشی از واریانس تفاوت نمرات بین دو نیمه (که ناشی از خطا قلمداد می شود) است.
می توان این معادله را برحسب کواریانس دو نیمه آزمون نیز نوشت:
ج) روش گوتمان[۱۲۱]
این روش نیز مستلزم یکسانی واریانس دو نیمه نمی باشد و از لحاظ ریاضی با معادله رولون برابر ولی از نظر محاسبه سادهتر است.
= ۲
: واریانس نمرات یک نیمه آزمون
: واریانس نمرات نیمه دیگر آزمون
واریانس نمرات کل آزمون (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱، ص ۱۴۶ و ۱۴۸).
روش ضریب آلفا[۱۲۲]
ضریب آلفا، کلیترین روش پیدا کردن برآوردهای اعتبار از طریق همسانی درونی است. به گفتهی یانگ و گرین[۱۲۳](۲۰۱۱)، ضریب آلفا تقریباً به طور فراگیری برای سنجش اعتبار مقیاسها در روانشناسی به کار میرود و برای تأیید اعتبار یک مقیاس، مقبولترین ضریب گزارش شده است. محققان جهت سنجش اعتبار بر اساس یکبار اجرای مقیاس هم برای داده های دو ارزشی و هم برای داده های چند ارزشی میتوانند ضریب آلفا را محاسبه کنند. همچنین، اظهار داشتند که محققان باید تحلیلهای مقدماتی(از قبیل مدلسازی معادله ساختاری) جهت اطلاع از ساختار درونی یک مقیاس اجرا کنند قبل از اینکه برآورد همسانی درونی از اعتبار انتخاب شود. تحلیلهای مقدماتی ممکن است محققان را به انتخاب ضریب آلفا منجر کند یا نکند. برای مثال اگر تشخیص داده شود که یک اندازه چند بعدی است آنگاه ضریب آلفا نامناسب خواهد بود. همچنین، بیان داشتند مفروضههای ضریب آلفا (مفروضه کلاسیک نمره – سوال، مفروضه تائو معادل، مفروضه ناهمبستگی خطا) در عمل تا حدی نقض میشوند، بنابراین دقت ضریب آلفا به عنوان برآوردی از اعتبار مسئلهساز می شود.
فرمولهای محاسباتی ضریب آلفا جهت سنجش اعتبار به قرار زیر است؛
الف) اگر واحد محاسبه ضریب اعتبار، واریانس نمرات هر بخش از آزمون (مثل آزمونی که از تعدادی خرده آزمون تشکیل شده) باشد:
j : تعداد بخش های آزمون
واریانس نمرات کل آزمون
: واریانس نمرات هر بخش آزمون
ب) اگر واحد محاسبه ضریب اعتبار، واریانس سوالات مختلف آزمون باشد:
: تعداد سوالات
: واریانس نمرات هر یک از سوالات
در این حالت اگر سوالات به صورت دو ارزشی باشند، KR20 با ضریب آلفا برابر است.
ج) اگر واحد محاسبه ضریب اعتبار، همبستگی هر سوال آزمون با سوال دیگر باشد:
: میانگین همه ضریب های همبستگی میان سوالات
د) اگر واحد محاسبه ضریب اعتبار، کواریانس میان جفت سوالات باشد:
: میانگین کواریانس میان جفت سوالات
ضریب آلفا مشخصه آماری است که اعتبار یک مقیاس را مبتنی بر همسانی درونی آن میسنجد. متأسفانه بسیاری از محققان هنگامی که ضریب آلفا را گزارش می کنند در بکارگیری واژه اعتبار قصور میورزند و به سادگی بیان کرده اند که آن یک مشخصه است که همسانی درونی را میسنجد (گرین و تامپسون[۱۲۴]، ۲۰۰۳، به نقل از یانگ و گرین، ۲۰۱۱). همچنین بعضی محققان اصطلاحات همسانی درونی و همگنی را به طور مترادف به کار میبرند. در بحث ضریب آلفا همسانی درونی، ارتباط میان سوالات (یعنی میانگین همبستگی میان سوالات) است. در حالیکه همگنی به درجه ای که سوالات تک بعدی هستند اشاره دارد. ضریب آلفا درجهای که یک مقیاس همگن است را منعکس نمیکند (کرتینا[۱۲۵]، ۱۹۹۳؛ گرین و همکاران، ۱۹۷۷؛ میلر، ۱۹۹۵؛ اشمیت[۱۲۶]، ۱۹۹۶؛ به نقل از یانگ و گرین، ۲۰۱۱) . علاوه بر این، ضریب آلفا مستقیماً تحتتأثیر طول مقیاس قرار دارد و به همین دلیل برای داشتن یک قضاوت دقیق، هنگام تفسیر ضریب آلفا طول مقیاسها را نیز باید در نظر گرفت.
روش کودر - ریچاردسون[۱۲۷]
یک آزمون را به تعداد سوالات آن میتوان دو نیمه کرد. فرض می شود که تمام سوالات آن همتا هستند. کودر و ریچاردسون با این کار توانستند معادلات مختلفی را برای محاسبه اعتبار آزمون ارائه دهند. این روش مستلزم یکبار اجرای آزمون است و در آن همه سوالات آزمون تحلیل میشوند.
KR20: برابر با میانگین ضرایب اعتبار حاصل از تمام روشهای ممکن دو نیمه کردن آزمون است. به طور کلی روش کودر – ریچاردسون برای محاسبه همسانی درونی آزمون مناسبتر از روش دو نیمه کردن آزمون است، زیرا بسیاری از مشکلات بالقوه روش دو نیمه کردن (روشهای جداگانه دو نیمه کردن که منجر به برآورد اعتبارهای مختلف می شود، نمرهگذاری جداگانه هر نیمه، یکسانی واریانس دو نیمه) را ندارد. شرط استفاده از این روش این است که، همه سوالات باید به صورت صفر و یک نمره گذاری شده باشند.
: تعداد سوالات آزمون
واریانس نمره کل آزمون
: مجموع واریانس های هر یک از سوالات آزمون
مقدار واریانس واقعی تابع مقدار کواریانس سوالات انفرادی آزمون است. مقدار این عبارات کوواریانس نیز تابع همبستگی بین سوالات و انحراف معیار سوالات است. هر چه کوواریانس بین سوالات بیشتر باشد میتوان چنین استنباط کرد که سوالات آزمون یک خصیصه کلی را میسنجند در نتیجه ضریب اعتبار آزمون بالا خواهد بود.
KR21 : شرط استفاده از این ضریب این است که همه سوالات به صورت صفر و یک نمرهگذاری شده
باشند. شرط دیگر آن است که سطح دشواری همه سوالات آزمون یکسان و متوسط (۵۰/۰) باشد.
: میانگین نمرات کل آزمودنی ها
در صورت برقراری فرض، استفاده از این فرمول بسیار سادهتر از فرمول است زیرا در استفاده از آن نیازی به محاسبه نسبت پاسخهای درست برای تک تک سوالات آزمون نیست. در مقایسه با برآورد پایینتری از ضریب اعتبار به دست میدهد (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱؛ آلن و ین، ۱۹۷۹، ترجمه دلاور، ۱۳۸۷).
اعتبار بین مصححان
در اینجا منظور از مصححان افرادی هستند که اوراق امتحانی را تصحیح می کنند. برای تعیین اعتبار آزمونهای تشریحی یا به طور کلی آزمونهای ذهنی که نمرات آنها تحتتأثیر قضاوت مصححان قرار میگیرد باید از دو یا چند مصحح که مستقلاً پاسخهای آزمون شوندگان را تصحیح می کنند استفاده کرد. اعتبار بین مصححان اشاره به میزان توافق مصححان با یکدیگر در نمرهگذاری مجموعه ای از اوراق دارد. همبستگی بین نمرات مصححان مختلف، شاخص اعتبار بین مصححان به حساب می آید. هر چه میزان عینیت نمرهگذاری آزمون بیشتر باشد توافق بین مصححان نیز بیشتر می شود، در نتیجه اعتبار بین مصححان افزایش مییابد و بالعکس، افزایش ذهنیت در نمرهگذاری، کاهش اعتبار بین مصححان را به دنبال خواهد داشت. لازم به ذکر است که این نوع اعتبار مربوط به شیوه کار تصحیحکنندگان اوراق امتحانی است و جدای از اعتبار آزمون که مربوط به سوالات آزمون است، میباشد. ضریب اعتبار بین مصححان برای ضریب اعتبار نمرات حاصل از اجرای آزمون یک سقف محسوب می شود (سیف، ۱۳۹۱، ص ۵۵۹).
اعتبار نمرات اختلاف
هر زمان که صحبت از تفاوتهای درونفردی و بینفردی می شود، مسئله اعتبار نمرات اختلاف مطرح می شود. گاهی اوقات مایلیم بدانیم آیا تفاوتهای مشاهده شده در نمرات یک فرد در آزمونهای مختلف یا پیشآزمون و پسآزمون، معتبر است یا خیر؟ به بیان دیگر میخواهیم بدانیم بین دو نمره چقدر تفاوت وجود داشته باشد که بگوییم این تفاوتها از نظر آماری معنادار هستند. نمرات اختلاف حاصل تفاضل دو مجموعه از نمرات هستند و اعتبار این نمرات از اعتبار هر کدام از آزمونها به تنهایی کمتر است. این نوع اعتبار، تابع ضریب اعتبار دو آزمون است و به نسبت افزایش ضریب همبستگی بین دو آزمون کاهش مییابد. اعتبار نمرات اختلاف زمانی صفر می شود که میانگین اعتبار دو آزمون با همبستگی بین آنها مساوی باشد و زمانی این اعتبار ۱+ می شود که اعتبار هر کدام از آزمون ها ۱+ باشد که در این حالت میزان همبستگی بین دو آزمون بیتأثیر است. با فرض اینکه نمرات به صورت نمرات Z یا استاندارد شده هستند، فرمول زیر را می توان برای برآورد اعتبار نمرات اختلاف به کار برد.
= اعتبار نمرات اختلاف
عوامل مؤثر بر اعتبار آزمون
طول آزمون
از کاربردهای جالب CTT این است که با طولانیتر کردن یک آزمون میتوان بر اعتبار آن افزود، زیرا با طولانی کردن آزمون، واریانس واقعی با آهنگ سریعتری نسبت به واریانس خطا افزایش پیدا می کند. طول آزمون شامل تعداد سوالات، تعداد ارزیابان و نیز تعداد جلسات ارزیابی می شود. دفعاتی که اضافه می شود باید مشابه باشند، به بیان گویاتر شرایط سنجش و آزمودن با افزایش طول تغییر نکند. جهت افزایش اعتبار از طریق افزایش طول آزمون، ابتدا باید منابع خطا را شناسایی نمود و سپس منبع خطایی که بیشترین نوسان را ایجاد می کند کنترل کرد و در راستای آن منبع خطا، بر طول آزمون افزود. به طور مثال، اگر تفاوت نمره گذاری منبع خطاست، میتوان برتعداد نمرهگذاران افزود. همچنین اگر منبع خطا، نوسان ناشی از سوالات باشد، میتوان بر تعداد سوالات افزود. نکتهای که باید به آن توجه داشت این است که در افزایش طول آزمون یک سری ملاحظات اقتصادی و عملی (صرف زمان، تلاش، هزینه، خستگی و کسالت آزمودنیها) را باید در نظر گرفت. سقف اعتبار آزمون طولانی شده بستگی به اعتبار اولیه دارد. هر چه اعتبار اولیه آزمون کمتر باشد، سرعت افزایش اعتبار بیشتر است(میلر، ۲۰۱۰؛ رین اسکاف، ۲۰۰۱؛ جزوه فلسفی نژاد، ۱۳۹۱).
استاندارد سازی کردن[۱۲۸]
پژوهش های انجام شده در رابطه با بررسی روایی و اعتبار آزمون دروس زیست شناسی و ادبیات-فارسی در امتحانات نهایی ...