رگرسیون ریج بیزی: رگرسیون ریج مشابه حداقل مربعات معمولی بوده با این تفاوت، درصورتیکه تعداد اثرات از تعداد مشاهدات بیشتر باشد محدودیتی نداشته و همچنین زمانی که بین نشانگرها همبستگی باشد نیز دارای پایداری عددی (numerical stability) است. مدل رگرسیون ریج به این صورت است: . برآورد اثرات نشانگرها ( ) را میتوان با بهره گرفتن از معادله روبهرو تخمین زد . که در اینجا یک ناظم برای پارامتر کنترل کننده بهمنظور توازن بین نکویی برازش (اندازه گیری شده بهوسیله مجموع مربعات خطا) و پیچیدگی مدل (که بهوسیله مجموع مربعات اثرات نشانگرها ( ) قابل اندازهگیری است) میباشد. لامبدا به قطر ماتریس ضرایب اضافه می شود. درصورتیکه لامبدا به سمت بینهایت میل کند، برابر صفر خواهد شد. از طرف دیگر، اگر لامبدا برابر صفر باشد برآوردهای این روش مشابه OLS خواهد بود. این مدل در فرم ماتریسی: خواهد بود که در اینجا D برابر ماتریس قطری بوده که برای برابر یک و برای بقیه عناصر صفر خواهد بود. وقتی کل عناصر این ماتریس صفر باشد مدل مشابه OLS خواهد بود. اضافه کردن ضرایب به قطر ماتریس، ضرایب برآوردها را به سمت صفر سوق میدهد. این کار هرچند که اریبی را تحریک کرده ولی واریانس برآوردها را کاهش میدهد. برآوردهای بیزی رگرسیون ریج مساوی است با توزیع پسین شرطی ضرایب رگرسیونی مدل بیزی که باشد. و بهترتیب واریانس باقیمانده و اثرات نشانگری میباشند. اختصاص دادن پیش فرضها (Prior) به هرکدام از این پارامترهای واریانس، منجر به استنباط و استنتاج پارامترهای نامعلوم از داده های آموزشی می شود که بهمنظور برآورد کردن اثرات نشانگرها مورد استفاده قرار میگیرد.
بیز LASSO: یکی دیگر از توزیعهای آماری برای اثرات SNP ها که بهعنوان توزیع پیشین روشهای بیزی بهکار میرود توزیع دونمایی میباشد. این توزیع مانند توزیع t دارای دم درازی است اما دارای تعداد بیشتری اثرات کوچک غیرصفر است. روش عامل انتخاب و افت حداقل مطلق (LASSO) از توزیع دونمایی برای توزیع اثرات QTL (مشروط به پارامتر تنظیم کننده لامبدا) استفاده می کند. برآوردهای LASSO میتوانند از مدل توزیع پسین بیزی تحت توزیع پیشین دونمایی مستقل برای اثرات QTL ها استنتاج و استنباط شوند. توزیع دونمایی همچنین می تواند بهعنوان توزیع مختلطی از توزیع نرمال با واریانس نمونه گیری شده از یک توزیع نمایی بیان شود.
بیز لاسو، شکل خاصی از حداقل مربعات جریمه شده است که مجموع مربعات باقیمانده را حداقل می کند. برآورد اثرات SNP در بیز LASSO تراکم پیشین توزیع دونمایی به این صورت بیان می شود.
که بوده و میزان افت را تعیین میکند. مقادیر بالای لامبدا تعداد بیشتری از ضرایب را صفر در نظر میگیرد و مقادیر پایینتر لامبدا منجر به نزدیکی برآوردها به OLS خواهد شد. در استنباط بیزی ضرایب رگرسیون: خواهند بود.
بردار ضرایب رگرسیون در بیز LASSO: مطابق پارک و کاسِلا (۲۰۰۸) توزیع پیشین شرطی اثرات نشانگرها ( ) با واریانس پیشین اختصاصی مارکر به این صورت تعریف می شود: این توزیع پیشین، افت برآورد اختصاصی اثرات نشانگرها را تحریک میکند که مقدار بسط آن به بستگی دارد. پارامتر واریانس ( برابر واریانس نشانگرها است: رِسِنده و همکاران، ۲۰۱۲) بهعنوان توزیعهای پیشین مستقل و یگانه نمایی و بهصورت: . در نظر گرفته می شود (پارک و کاسِلا، ۲۰۰۸). که با این فرضیات توزیع پیشین حاشیهای ضرایب رگرسیون به این صورت خواهد بود. که توزیع دونمایی است. این توزیع دارای تراکم بیشتری در صفر بوده که نشاندهنده اینست که دارای افت شدیدی برای مارکرهای با اثر نسبتاً کوچک و افت پایینتر برای مارکرهای با اثر قابل ملاحظه میباشد.
در بیز LASSO توزیع پیشین واریانس اثرات نشانگرها به این صورت است:
بنابراین، و میباشد.
بیز A: در این روش توزیع اثرات SNP ها بهصورت توزیع t فرض می شود. به این مفهوم که در این توزیع مفروض است همانند BLUP تمام SNP ها دارای اثرات اندکی باشند هرچند که شکل دنبهای توزیع فرض شده اجازه میدهد که برخی از SNP ها در حالت عدم لینکاژی با QTL های متوسط تا بزرگ اثر باشند. در این حالت اثرات SNP از توزیع نرمال نمونه گیری شده ولی واریانس این اثرات از توزیع کای اسکوار مقیاسبندی شده معکوس (مشابه معکوس گاما میباشد) نمونهگیری خواهد شد:
که در اینجا r برابر درجه آزادی و s مساوی پارامتر مقیاس است. این فرمول نشان میدهد که اثرات SNP ها از توزیع t نمونهگیری شده اند. مقادیر پارامترهای توزیع کای اسکوار معکوس مقیاسبندی شده (r و s) میتوانند برای متغیر تصادفی X به این صورت تعریف شوند.
از ترکیب دو معادله بالا حاصل می شود: .
بنابراین با بهره گرفتن از میانگین و واریانس مورد انتظار میتوان دو هایپر پارامتر r و s را برای توزیع کای اسکوار معکوس مقیاسبندی شده تعریف کرد.
درصورتیکه درجه آزادی افزایش یابد توزیع t به توزیع نرمال نزدیک می شود. ولی در حالت پایین بودن درجه آزادی، بیشتر SNP ها با اثر اندک و تعداد کمی از آنها با اثر عمده در نظر گرفته می شود. این حالت برای بیشتر صفات تقریب واقعیتری از اثرات SNP نسبت به (نمونهگیری اثرات QTL از) توزیع نرمال میباشد.
در بیز A توزیع پیشین واریانس بهصورت توزیع کای اسکوار معکوس مقیاسبندی شده در نظر گرفته شده که در اینجا s پارامتر مقیاس و v درجه آزادی میباشد. در این حالت وقتی اطلاعات توزیع پیشین و اطلاعات داده ها با هم ترکیب می شود توزیع پسین نیز بهصورت توزیع کای اسکوار معکوس شده مقیاسبندی شده خواهد بود
که در اینجا n برابر تعداد اثرات نشانگرها میباشد. همچنین واریانس خطای توزیع پیشین بهصورت است که توزیع شرطی آن به این صورت خواهد بود:
بیز B: در این مدل فرض بر این است که فقط قسمتی (بخشی) از جایگاههای ژنی، کل واریانس ژنتیکی را تشریح می کنند و بسیاری از جایگاههای ژنی نقشی در واریانس ژنتیکی ندارند. مدل آماری بیز B را میتوان بهصورت زیر نوشت:
که y فنوتیپ حیوان i بوده، : میانگین، k تعداد جایگاههای مارکری، x ژنوتیپ مارکر در جایگاه j (i اُمین آلل) که بهصورت ۰ و ۱ و ۲ (تعداد کپیهای آلل SNP که حیوان i حمل می کند) کد گذاری میشوند. نیز اثر جایگزینی آللی در جایگاه j و متغیر موردنظر و اختصاصی این مدل است که یک متغیر ۰ و ۱ بوده و نشاندهنده عدم حضور (با احتمالπ) یا حضور (با احتمال۱-π) جایگاه j در مدل میباشد.
فرض اصلی این روش، این است که بسیاری از SNP ها در مناطق ژنومی قرار گرفتهاند که فاقد QTL بوده و تاثیری بر صفت ندارند. در حالیکه فقط بخش اندکی از SNP ها در حالت LD با QTL بوده و درنتیجه دارای اثر هستند. بهطورکلی π نشاندهنده نسبت قابلانتظاری از SNP هاست که در حالت عدم لینکاژی با QTL ها نسبت به تعداد کل SNP ها است. اثرات SNP از توزیع t نمونه گیری شده ولی واریانس اثرات با احتمال π از توده صفر و با احتمال π ۱- ازتوزیع کای اسکوار معکوس مقیاسبندی شده (مِوویسِن و همکاران، ۲۰۰۱) نمونه گیری خواهند شد:
در روش بیز B مشکل مشخص بودن مقدار π وجود دارد. درصورتیکه مقداری که انتخاب می شود با توزیع حقیقی اثرات SNP ناسازگار و متناقض باشد بهطور معنیداری بر میزان صحت اثرات برآورد شده تاثیر منفی خواهد داشت. برای حل مشکل از قبل معین بودن π، از روش نمونه گیری ارائه شده توسط فرناندو (۲۰۰۹)، از توزیع پیشین یکنـــواخت (=uniform(0,1)π) استفاده و در کنار تمام پارامترهای دیگر در تکرارهای MCMC نمونه گیری خواهد شد. زمانی که یک همگرایی حاصل شد پارامتر برابر میانگین توزیع پسین خودش در نظر گرفته خواهد شد و الگوریتمها مجدداً برای برآورد اثرات SNP بهکار گرفته خواهند شد.
بیز C: این روش شکلی از بیز B است. فقط بهجای اینکه از توزیع پیشین t برای اثرات نشانگرها استفاده کند از توزیع نرمال استفاده میشود و ازاینرو، توزیع پسین اثرت نشانگری هم نرمال خواهد بود.
۳-۷- برآورد ارزشهای اصلاحی ژنومی
در هریک از سناریوهای مورد مطالعه، ارزشهای اصلاحی ژنومی برای هریک از افراد جمعیت کاندیدا، با بهره گرفتن از مجموع اثرات نشانگرها (بر حسب ژنوتیپ فرد در هر جایگاه) برآورد گردید. بنابراین، بردار ارزشهای اصلاحی ژنومی برآورد شده برابر است با:
GEBV=Xg
که در این رابطه، GEBV بردار ارزشهای اصلاحی ژنومی (با ابعاد n*1) میباشد. X ماتریس طرح با ابعاد n*m بوده که n تعداد فرد و m تعداد نشانگر میباشد. این ماتریس اثرات نشانگری را به ژنوتیپ نشانگرها مرتبط میسازد همچنین g بردار اثرات برآورد شده برای چند شکلیهای تک نوکلئوتیدی با ابعاد m*1 (m: تعداد نشانگر) میباشد که با بهره گرفتن از روشهای مختلف برآورد شده است. برای اجرای روشهای بیزی، از بسته نرم افزاری BGLR (دِ لوس کامپوس و پِرِز، ۲۰۱۳) و الگوریتم نمونهگیری گیبس برای نمونهگیری توزیع پسین شرطی اثرات نشانگری استفاده شد. استنباط اثرات نشانگری با بهره گرفتن از زنجیرههای ۱۲۰۰۰ نمونه ای (۲۰۰۰ نمونه اولیه گرمکنندگی و ۱۰۰۰۰ نمونه بعدی برای استنباطهای توزیع پسین) صورت گرفت.
۳-۸- مقایسه صحت روشها
بهمنظور بررسی صحت ارزشهای اصلاحی ژنومی برآورد شده با بهره گرفتن از روشهای مورد مطالعه، از همبستگی پیرسون ارزشهای اصلاحی برآورد شده و ارزش اصلاحی حقیقی استفاده گردید. هر سناریوی شبیهسازی شده ۱۰ بار تکرار شد و میانگین ۱۰ ضریب همبستگی بهدستآمده بهعنوان معیار صحت مدل درنظر گرفته شد.
۳-۹- استنباط ژنوتیپی
در بخش دیگر این پژوهش، تاثیر استنباط SNP ها بر صحت ارزشهای اصلاحی ژنومی مورد ارزیابی قرار گرفت. به همین منظور، پس از شبیهسازی جمعیتهای پایه، تاریخی، مرجع و تایید، ژنوتیپهای جمعیت مرجع بهعنوان پانل مرجع در نظر گرفته شدند. بهطوریکه پس از ذخیره ژنوتیپهای جمعیت تایید و اعمال درصدهای مختلف حذف، برای استنباط ژنوتیپهای ازدسترفته از ژنوتیپهای جمعیت مرجع بهعنوان راهنما استفاده شد. در این مطالعه، در ژنوتیپ حیوانات تایید، اطلاعات ژنوتیپی ۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد از نشانگرها حذف و با بهره گرفتن از دو روش تخصیص تصادفی و روش جنگل تصادفی استنباط شدند.
۳-۱۰- روشهای استنباط ژنوتیپی
۳-۱۰-۱-روش تخصیص تصادفی
این روش بر مبنای فرض تعادل هاردی-واینبرگ عمل می کند و ژنوتیپهای ازدسترفته را بر اساس فراوانی آللی و ژنوتیپی در پانل راهنما استنباط می کند. با فرض دو آلل و سه ژنوتیپ در هر جایگاه نشانگری، اگر فراوانی آلل ۱ و ۰ بهترتیب p و ۱-p باشد درنتیجه ژنوتیپ ازدسترفته را بر اساس احتمال ژنوتیپها در هر جایگاه نمونه گیری می کند. نمونه گیری از فضای نمونه توزیع فراوانی ژنوتیپها به این صورت میباشد:
استنباط ژنوتیپها به روش تخصیص تصادفی با بهره گرفتن از بسته synbreed Version 0.10-4 (ویمر و همکاران، ۲۰۱۴) انجام شد.
۳-۱۰-۲- روش جنگل تصادفی
ماتریس نشانگری X حاوی عناصر Xij (ژنوتیپ نشانگر j ام برای فرد i ام) را در نظر بگیرید. ۱) ابتدا در ماتریس X نشانگرها بر اساس درصد اطلاعات ژنوتیپی ازدسترفته رتبه بندی میشوند و سپس اطلاعات از دسترفته بهوسیله روش MNI (Mean Neighbor Imputation) که روشی حد واسط است استنباط میشوند. MNI یک استنباط اولیه از ژنوتیپ از دست رفته نشانگر j (j امین SNP) را بهدست میدهد که بهعنوان یک پیش برآورد برای RF قلمداد می شود. ۲) سپس در هر نشانگر j که حاوی ژنوتیپهای ازدسترفته است (Xmis، در این مرحله ژنوتیپ استنباط شده توسط MNI)، اطلاعات معلوم (Xobs) برای ایجاد یک RF با مثلاً ۱۰۰ درخت مورد استفاده قرار میگیرد (۱۰۰Ψ….۱Ψ). هر درخت با بهره گرفتن از یک نمونه از Xobs ها شروع به رشد می کند و در هر گره انشعاب صورت میگیرد تا در نهایت به گرههای پایانی میرسیم. ۳) Xmisها با میانگینگیری از نتیجه ۱۰۰ درخت و بهصورت زیر استنباط میشوند:
در رابطه فوق X یک بردار ورودی است که حاوی اطلاعات ژنوتیپی برای نشانگر j است. ۴) اطلاعات ژنوتیپی نشانگر j در ماتریس X با بهره گرفتن از مقادیر در اصطلاح update می شود. (۵) مراحل ۲ تا ۴ برای نشانگرهای بعدی تکرار میشوند تا زمانی که همه ژنوتیپهای ازدسترفته استنباط شوند. این الگوریتم با بهره گرفتن از تابع missForest بسته نرم افزاری randomForest Version 4.6-10 (لیاو، ۲۰۱۴) بهکار گرفته شد.
۳-۱۱- صحت استنباط ژنوتیپ
برای سنجش صحت ژنوتیپهای استنباط شده روشهای متعددی ارائه شده است. برخی از آنها مانند شاخص درصد ژنوتیپهای بهدرستی استنباط شده بهشدت وابسته به فراوانی آللی است (هیکی و همکاران، ۲۰۱۲). بنابراین، نتایج حاصله ممکن است اریب باشند. در این مطالعه از همبستگی بین ژنوتیپهای استنباط شده با ژنوتیپهای واقعی استفاده شد. این شاخص توسط هیکی و همکاران (۲۰۱۲) که نقاط قوت و ضعف شاخص های مختلف را بررسی کردند، بهعنوان بهترین شاخص برای ارزیابی عملکرد روشهای مختلف استنباط ژنوتیپ پیشنهاد شده است.
۳-۱۲- صحت پیش بینی ارزشهای اصلاحی ژنومی حاصل از ژنوتیپ استنباط شده
جهت بررسی تاثیر استنباط ژنوتیپ بر صحت پیش بینی ارزشهای اصلاحی ژنومی، ابتدا اثرات نشانگری برای هرکدام از جایگاهها برآورد و سپس ارزشهای اصلاحی ژنومی در جمعیت تایید برای هرکدام از افراد برآورد شد (GEBV). در مرحله بعد، پس از استنباط ژنوتیپهای ازدسترفته مجدداً ارزشهای اصلاحی برای حیوانات کاندیدا برآورد شد (GEBV_GI). بهمنظور بررسی کارایی استنباط ژنوتیپی در برنامه های اصلاح نژادی و تاثیر استنباط ژنوتیپی بر صحت ارزشهای اصلاحی ژنومی برآورد شده از همبستگی بین GEBV و GEBV_GI استفاده شد. دو روش فوقالذکر، در درصدهای مختلف حذف (۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد) و نیز در سطوح مختلف عدم تعادل لینکاژی (۱/۰، ۲/۰ و ۳/۰) مقایسه شدند.
فصل چهارم