طراحی، اجرا و روشهای آماری GWAS
طراحی و تحلیل یک مطالعه انجمن سراسر ژنوم (GWAS) یک فرآیند منظم است: جمعآوری موارد و کنترلهای با فنوتیپ دقیق (یا یک گروه با صفت کمی)، ژنوتیپبندی و ایمپوتاسیون واریانتها در سراسر ژنوم، پاکسازی دادهها از طریق کنترل کیفیت دقیق، آزمون هر واریانت برای ارتباط با تنظیم برای تبار، و قضاوت سیگنالها در برابر آستانه معنیداری سراسر ژنوم قبل از جستجوی تکرار. هر مرحله برای جلوگیری از تولید اکتشافات نادرست توسط تعداد عظیم آزمونهای آماری وجود دارد.
Definition
طراحی و تحلیل GWAS مجموعهای از انتخابهای طراحی مطالعه و روشهای آماری است که از طریق آنها ارتباطات واریانت-فنوتیپ در سراسر ژنوم آزمایش میشوند، مثبتهای کاذب در میلیونها مقایسه کنترل میشوند، و سیگنالهای معتبر از مصنوعات ژنوتیپبندی، خویشاوندی یا تبار متمایز میشوند.
Scope
این موضوع ستون فقرات روششناختی GWAS را پوشش میدهد: تعریف نمونه و فنوتیپ، ژنوتیپبندی و ایمپوتاسیون، فیلترهای کنترل کیفیت، مدل انجمن تکنشانگر، تصحیح آزمونهای چندگانه و معنیداری سراسر ژنوم، تشخیصهایی مانند عامل تورم ژنومی و نمودارهای QQ/منهتن، و تکرار. این یک مرجع روششناختی است و نه یک پروتکل برای آزمایش ژنتیکی بالینی.
Core questions
- چه اندازه نمونه و تعریف فنوتیپ قدرت کافی برای تشخیص واریانتهای با اثر کوچک را فراهم میکند؟
- کدام فیلترهای کنترل کیفیت واریانتها و نمونههای غیرقابل اعتماد را قبل از آزمایش حذف میکنند؟
- چه مدل رگرسیونی برای آزمون انجمن تکنشانگر استفاده میشود و تبار چگونه تنظیم میشود؟
- چه آستانه معنیداری مثبتهای کاذب سراسر ژنوم را کنترل میکند و چرا نزدیک به 8-^10 × 5 است؟
- چگونه یک سیگنال واقعی از تورم ژنومی متمایز میشود و چرا تکرار لازم است؟
Key concepts
- طراحیهای مورد-کنترل و صفت کمی
- فراخوانی ژنوتیپ و ایمپوتاسیون
- کنترل کیفیت (نرخ فراخوانی، MAF، فیلترهای تعادل هاردی-واینبرگ)
- آزمون انجمن تکنشانگر (رگرسیون لجستیک یا خطی)
- مدل ژنتیکی افزایشی و اثر به ازای هر آلل (نسبت شانس یا بتا)
- آستانه معنیداری سراسر ژنوم (حدود 8-^10 × 5)
- عامل تورم ژنومی (لامبدا) و نمودارهای QQ
- نمودار منهتن و تکرار
Mechanisms
هر واریانت معمولاً با یک مدل رگرسیون – لجستیک برای وضعیت بیماری دودویی، خطی برای صفات کمی – آزمایش میشود که در آن واریانت تحت یک مدل افزایشی (به ازای هر آلل) کدگذاری میشود و مؤلفههای اصلی تبار به علاوه سایر متغیرهای کمکی برای کنترل مخدوشکنندهها گنجانده میشوند. نتیجه برای هر واریانت یک برآورد اثر (نسبت شانس یا بتا) و یک مقدار p است. از آنجا که صدها هزار تا میلیونها واریانت مشترک عمدتاً مستقل آزمایش میشوند، معنیداری در برابر آستانه سراسر ژنوم حدود 8-^10 × 5 قضاوت میشود که از تصحیح به سبک بونفرونی برای تعداد مؤثر آزمونهای مستقل مشتق شده است. قبل از آزمایش، کنترل کیفیت نمونهها و واریانتها را با نرخ فراخوانی پایین، انحراف شدید از تعادل هاردی-واینبرگ در کنترلها، فراوانی آلل فرعی بسیار پایین، یا شواهدی از خویشاوندی و نقاط پرت جمعیتی حذف میکند. عامل تورم ژنومی و نمودارهای QQ مخدوشکنندههای باقیمانده را نشان میدهند؛ نمودارهای منهتن سیگنالها را در سراسر ژنوم نمایش میدهند؛ و تکرار مستقل از مصنوعات خاص طراحی محافظت میکند. نرمافزارهایی مانند PLINK این مراحل را استاندارد کردند.
Clinical relevance
درک طراحی و تحلیل GWAS بخشی از ارزیابی شواهد ژنتیکی ذکر شده در تحقیقات بیماری و در ساخت نمرات پلیژنیک است. این موضوع توضیح میدهد که چگونه ارتباطات تولید و تأیید میشوند و توصیفی است؛ این یک روش برای تشخیص ژنتیکی فردی یا برای تصمیمگیری بالینی نیست.
Evidence & guidelines
قراردادهای تحلیلی از طریق تجربه کنسرسیوم و بررسیهای روششناختی به جای دستورالعملهای بالینی رسمی تثبیت شدند. کنسرسیوم کنترل موارد Wellcome Trust (2007) طراحی کنترل مشترک و کنترل کیفیت دقیق در مقیاس بزرگ را نشان داد؛ PLINK (Purcell و همکاران، 2007) به یک جعبه ابزار تحلیل استاندارد تبدیل شد؛ و بررسیهای McCarthy و همکاران (2008) و Bush و Moore (2012) انتظارات پذیرفته شده گستردهای را برای قدرت، کنترل کیفیت، آستانههای معنیداری و تکرار ارائه کردند.
History
این فرآیند با اولین اسکنهای بزرگ سراسر ژنوم در اواسط دهه 2000، زمانی که آرایههای مقرون به صرفه و ایمپوتاسیون مبتنی بر HapMap آزمایش کل ژنوم را عملی کردند، شکل گرفت. مطالعه کنسرسیوم کنترل موارد Wellcome Trust در سال 2007 سوابق تأثیرگذاری را برای کنترلهای مشترک، کنترل کیفیت و آستانه 8-^10 × 5 تعیین کرد، در حالی که انتشار PLINK یک مجموعه ابزار تحلیلی مشترک به جامعه داد. بررسیهای روششناختی متعاقباً بهترین روش را کدگذاری کردند، و جعبه ابزار تحلیلی بعداً به مدلهای ترکیبی، روشهای آمار خلاصه و گروههای زیستبانکی بسیار بزرگ گسترش یافت.
Debates
- آیا آستانه ثابت 8-^10 × 5 در طراحیهای مطالعه و تبارها مناسب است؟
- آستانه متعارف سراسر ژنوم برای تغییرات رایج در نمونههای با تبار اروپایی کالیبره شده است؛ توالییابی متراکمتر، واریانتهای نادرتر و سایر تبارها به معنای تعداد مؤثر متفاوتی از آزمونهای مستقل است، بنابراین اینکه آیا آستانه باید خاص طراحی باشد مورد بحث است.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- چرا آستانه معنیداری GWAS نزدیک به 8-^10 × 5 تعیین شده است؟
- این مقدار تقریبی تصحیح بونفرونی برای تقریباً یک میلیون واریانت مشترک عملاً مستقل در ژنوم انسان است که نرخ مثبت کاذب سراسر ژنوم را نزدیک به سطح متعارف 0.05 نگه میدارد.
- چرا یافته GWAS باید تکرار شود؟
- یک مطالعه واحد میتواند ارتباطات کاذب را از مشکلات ظریف کنترل کیفیت، مخدوشکنندههای باقیمانده یا شانس در مرز معنیداری ایجاد کند؛ تکرار مستقل در یک نمونه جداگانه، بررسی استانداردی است که نشان میدهد یک سیگنال واقعی است.