Desain, Pelaksanaan, dan Metode Statistik GWAS
Mendesain dan menganalisis studi asosiasi genom-lebar merupakan alur kerja yang disiplin: mengumpulkan kasus dan kontrol yang terfenotipe dengan baik (atau kohort sifat kuantitatif), melakukan genotipe dan imputasi varian di seluruh genom, membersihkan data melalui kontrol kualitas yang ketat, menguji setiap varian untuk asosiasi sambil menyesuaikan untuk leluhur, dan menilai sinyal terhadap ambang signifikansi genom-lebar sebelum mencari replikasi. Setiap langkah ada untuk mencegah sejumlah besar uji statistik menghasilkan penemuan palsu.
Definition
Desain dan analisis GWAS adalah serangkaian pilihan desain studi dan prosedur statistik di mana asosiasi varian-fenotipe diuji di seluruh genom, positif palsu dikendalikan di antara jutaan perbandingan, dan sinyal kredibel dibedakan dari artefak genotipe, kekerabatan, atau leluhur.
Scope
Topik ini mencakup tulang punggung metodologis GWAS: definisi sampel dan fenotipe, genotipe dan imputasi, filter kontrol kualitas, model asosiasi penanda tunggal, koreksi pengujian berganda dan signifikansi genom-lebar, diagnostik seperti faktor inflasi genomik dan plot QQ/Manhattan, serta replikasi. Ini adalah referensi metode dan bukan protokol untuk pengujian genetik klinis.
Core questions
- Berapa ukuran sampel dan definisi fenotipe yang memberikan kekuatan yang memadai untuk mendeteksi varian efek kecil?
- Filter kontrol kualitas mana yang menghilangkan varian dan sampel yang tidak dapat diandalkan sebelum pengujian?
- Model regresi apa yang digunakan untuk uji asosiasi penanda tunggal, dan bagaimana leluhur disesuaikan?
- Ambang signifikansi apa yang mengontrol positif palsu di seluruh genom, dan mengapa nilainya mendekati 5 x 10^-8?
- Bagaimana sinyal asli dibedakan dari inflasi genomik, dan mengapa replikasi diperlukan?
Key concepts
- Desain kasus-kontrol dan sifat kuantitatif
- Panggilan genotipe dan imputasi
- Kontrol kualitas (tingkat panggilan, MAF, filter kesetimbangan Hardy-Weinberg)
- Uji asosiasi penanda tunggal (regresi logistik atau linier)
- Model genetik aditif dan efek per-alel (rasio odds atau beta)
- Ambang signifikansi genom-lebar (~5 x 10^-8)
- Faktor inflasi genomik (lambda) dan plot QQ
- Plot Manhattan dan replikasi
Mechanisms
Setiap varian biasanya diuji dengan model regresi – logistik untuk status penyakit biner, linier untuk sifat kuantitatif – di mana varian dikodekan di bawah model aditif (per-alel) dan komponen utama leluhur ditambah kovariat lain disertakan untuk mengontrol pengganggu (confounding). Hasil per varian adalah estimasi efek (rasio odds atau beta) dan nilai p. Karena ratusan ribu hingga jutaan varian umum yang sebagian besar independen diuji, signifikansi dinilai terhadap ambang genom-lebar sekitar 5 x 10^-8, yang berasal dari koreksi gaya Bonferroni untuk jumlah efektif tes independen. Sebelum pengujian, kontrol kualitas menghilangkan sampel dan varian dengan tingkat panggilan rendah, penyimpangan ekstrem dari kesetimbangan Hardy-Weinberg pada kontrol, frekuensi alel minor yang sangat rendah, atau bukti kekerabatan dan outlier populasi. Faktor inflasi genomik dan plot QQ menandai pengganggu residual; plot Manhattan menampilkan sinyal di seluruh genom; dan replikasi independen menjaga terhadap artefak spesifik desain. Perangkat lunak seperti PLINK membakukan langkah-langkah ini.
Clinical relevance
Memahami desain dan analisis GWAS adalah bagian dari menilai bukti genetik yang dikutip dalam penelitian penyakit dan dalam pembangunan skor poligenik. Topik ini menjelaskan bagaimana asosiasi dihasilkan dan divalidasi dan bersifat deskriptif; ini bukan prosedur untuk diagnosis genetik individu atau untuk pengambilan keputusan klinis.
Evidence & guidelines
Konvensi analitik dikonsolidasikan melalui pengalaman konsorsium dan tinjauan metodologis daripada pedoman klinis formal. Wellcome Trust Case Control Consortium (2007) mendemonstrasikan desain kontrol bersama dan kontrol kualitas yang ketat dalam skala besar; PLINK (Purcell et al., 2007) menjadi perangkat analisis standar; dan tinjauan oleh McCarthy et al. (2008) serta Bush dan Moore (2012) menetapkan ekspektasi yang diterima secara luas untuk kekuatan, kontrol kualitas, ambang signifikansi, dan replikasi.
History
Alur kerja ini mengkristal dengan pemindaian genom-lebar besar pertama pada pertengahan tahun 2000-an, ketika array yang terjangkau dan imputasi berbasis HapMap membuat pengujian seluruh genom menjadi praktis. Studi Wellcome Trust Case Control Consortium tahun 2007 menetapkan preseden berpengaruh untuk kontrol bersama, kontrol kualitas, dan ambang 5 x 10^-8, sementara rilis PLINK memberikan komunitas perangkat analisis umum. Tinjauan metodologis kemudian mengkodifikasi praktik terbaik, dan perangkat analisis kemudian diperluas ke model campuran, metode statistik ringkasan, dan kohort biobank yang sangat besar.
Debates
- Apakah ambang tetap 5 x 10^-8 sesuai di seluruh desain studi dan leluhur?
- Ambang genom-lebar konvensional dikalibrasi untuk variasi umum pada sampel leluhur Eropa; pengurutan yang lebih padat, varian yang lebih jarang, dan leluhur lain menyiratkan jumlah efektif tes independen yang berbeda, sehingga apakah ambang harus spesifik desain masih diperdebatkan.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- Mengapa ambang signifikansi GWAS ditetapkan mendekati 5 x 10^-8?
- Ini mendekati koreksi Bonferroni untuk sekitar satu juta varian umum yang secara efektif independen dalam genom manusia, menjaga tingkat positif palsu di seluruh genom mendekati tingkat konvensional 0,05.
- Mengapa temuan GWAS harus direplikasi?
- Satu studi dapat menghasilkan asosiasi palsu dari masalah kontrol kualitas yang halus, pengganggu residual, atau kebetulan di ambang signifikansi; replikasi independen dalam sampel terpisah adalah pemeriksaan standar bahwa sinyal itu nyata.