GWASの設計、実施、および統計的手法
ゲノムワイド関連解析(GWAS)の設計と分析は、規律あるパイプラインです。すなわち、表現型が詳細に記述された症例群と対照群(または量的形質コホート)を収集し、ゲノムワイドにバリアントのジェノタイピングとインピュテーションを行い、厳格な品質管理によってデータを精査し、祖先を調整しながら各バリアントの関連性を検定し、ゲノムワイドな有意水準に対してシグナルを評価した後、再現性を確認します。各ステップは、膨大な数の統計的検定が誤った発見を生み出すのを防ぐために存在します。
Definition
GWASの設計と分析とは、ゲノムワイドにバリアントと表現型の関連性を検定し、数百万の比較における偽陽性を制御し、ジェノタイピング、血縁関係、または祖先によるアーティファクトから信頼できるシグナルを区別するための一連の研究設計の選択と統計的手順を指します。
Scope
このトピックは、GWASの方法論的基盤を扱います。具体的には、サンプルと表現型の定義、ジェノタイピングとインピュテーション、品質管理フィルター、単一マーカー関連モデル、多重検定補正とゲノムワイドな有意性、ゲノムインフレーションファクターやQQ/マンハッタンプロットなどの診断、および再現性です。これは方法論に関する参考文献であり、臨床遺伝子検査のプロトコルではありません。
Core questions
- どのようなサンプルサイズと表現型定義が、小さな効果のバリアントを検出するのに十分な検出力を与えるのでしょうか?
- 検定前に信頼性の低いバリアントとサンプルを除去する品質管理フィルターはどれですか?
- 単一マーカー関連検定にはどのような回帰モデルが使用され、祖先はどのように調整されますか?
- ゲノムワイドな偽陽性を制御する有意水準はどれくらいで、なぜ約5 x 10^-8なのですか?
- 真のシグナルはゲノムインフレーションとどのように区別され、なぜ再現性が必要なのですか?
Key concepts
- 症例対照研究および量的形質研究デザイン
- ジェノタイプコーリングとインピュテーション
- 品質管理(コール率、MAF、ハーディー・ワインバーグ平衡フィルター)
- 単一マーカー関連検定(ロジスティックまたは線形回帰)
- 相加的遺伝モデルと対立遺伝子あたりの効果(オッズ比またはベータ値)
- ゲノムワイド有意水準(約5 x 10^-8)
- ゲノムインフレーションファクター(ラムダ)とQQプロット
- マンハッタンプロットと再現性
Mechanisms
各バリアントは通常、回帰モデル(二値の疾患状態にはロジスティック回帰、量的形質には線形回帰)を用いて検定されます。このモデルでは、バリアントは相加的(対立遺伝子あたり)モデルでコードされ、祖先の主成分分析結果とその他の共変量が交絡を制御するために含まれます。各バリアントの結果は、効果推定値(オッズ比またはベータ値)とp値です。数十万から数百万の大部分が独立した一般的なバリアントが検定されるため、有意性は約5 x 10^-8のゲノムワイドな閾値に対して判断されます。この閾値は、実効的な独立検定数に対するボンフェローニ補正に由来します。検定前には、品質管理によって、コール率の低いサンプルやバリアント、対照群におけるハーディー・ワインバーグ平衡からの極端な逸脱、非常に低いマイナーアレル頻度、または血縁関係や集団外れ値の証拠があるサンプルやバリアントが除去されます。ゲノムインフレーションファクターとQQプロットは残存する交絡を指摘し、マンハッタンプロットはゲノム全体のシグナルを表示し、独立した再現性は設計固有のアーティファクトから保護します。PLINKなどのソフトウェアがこれらのステップを標準化しました。
Clinical relevance
GWASの設計と分析を理解することは、疾患研究で引用される遺伝的証拠やポリジェニックスコアの構築を評価する上で不可欠です。このトピックは、関連性がどのように生成され、検証されるかを説明するものであり、記述的なものです。個別の遺伝子診断や臨床的意思決定のための手順ではありません。
Evidence & guidelines
分析の慣例は、正式な臨床ガイドラインではなく、コンソーシアムの経験と方法論的レビューを通じて確立されました。Wellcome Trust Case Control Consortium (2007) は、共有対照群設計と大規模な厳格な品質管理を実証しました。PLINK (Purcell et al., 2007) は標準的な分析ツールキットとなり、McCarthy et al. (2008) および Bush and Moore (2012) によるレビューは、検出力、品質管理、有意水準、および再現性に関する広く受け入れられている期待値を提示しました。
History
このパイプラインは、2000年代半ばに最初の大規模なゲノムワイドスキャンが行われた際に具体化されました。この時期には、手頃な価格のアレイとHapMapに基づくインピュテーションにより、全ゲノム検査が実用的になりました。2007年のWellcome Trust Case Control Consortiumの研究は、共有対照群、品質管理、および5 x 10^-8の閾値に関して影響力のある先例を設定し、PLINKのリリースはコミュニティに共通の分析ツールセットを提供しました。その後、方法論的レビューによってベストプラクティスが成文化され、分析ツールキットは後に混合モデル、要約統計量手法、および非常に大規模なバイオバンクコホートへと拡張されました。
Debates
- 固定された5 x 10^-8の閾値は、研究デザインや祖先に関わらず適切か?
- 従来のゲノムワイド閾値は、ヨーロッパ系祖先のサンプルにおける一般的なバリアントのために較正されました。より高密度のシーケンシング、より稀なバリアント、および他の祖先は、異なる実効的な独立検定数を意味するため、閾値がデザイン固有であるべきかどうかは議論されています。
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- GWASの有意水準が約5 x 10^-8に設定されているのはなぜですか?
- これは、ヒトゲノムにおける約100万の事実上独立した一般的なバリアントに対するボンフェローニ補正の近似値であり、ゲノムワイドな偽陽性率を従来の0.05レベルに保つためです。
- GWASの発見はなぜ再現されなければならないのですか?
- 単一の研究では、微妙な品質管理の問題、残存する交絡、または有意性の境界での偶然によって、偽の関連性が生じる可能性があります。別のサンプルでの独立した再現性は、シグナルが本物であることを確認するための標準的な検証方法です。