集団層別化はどのようにして誤ったGWAS結果を生み出すのですか？

症例群と対照群の祖先が異なる場合、その祖先間で頻度が異なる変異は、因果関係ではなく祖先を介して形質と関連しているように見え、ゲノム全体に見かけ上の関連性を生み出します。

層別化は通常どのように補正されますか？

標準的なアプローチでは、ゲノムワイドな遺伝子型の主要な主成分を共変量として含めるか、線形混合モデルを使用することで、関連性検定が祖先の違いそのものではなく、祖先内の効果を反映するようにします。

GWASにおける集団層別化と祖先

集団層別化とは、遺伝学的研究で比較される人々の間で、祖先に系統的な違いがあることを指します。症例群と対照群の祖先背景が異なる場合、その祖先間で頻度が異なる変異は、たとえ因果関係がなくても形質と関連しているように見えます。これは、ゲノム全体にわたって偽陽性を生み出す可能性のある交絡因子となります。したがって、祖先を検出し、調整することは、有効な関連性検定の主要な保護策となります。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

集団層別化とは、比較されるグループ間の系統的な祖先の違いによって、遺伝子型と表現型の関連性が交絡されることであり、その制御とは、主に祖先主成分と混合モデルを用いて、関連性検定を調整し、シグナルが祖先そのものではなく、祖先内の効果を反映するようにする一連の方法を指します。

Scope

このトピックでは、祖先の違いが関連性検定をどのように交絡させるか、層別化がどのように検出されるか（ゲノムインフレーション、主成分分析）、どのように補正されるか（主成分共変量、混合モデル、ゲノムコントロール）、そしてGWASのヨーロッパ系祖先への偏りが、発見とポリジェニックスコアの転用可能性を制限するという広範な公平性の懸念について扱います。これは方法論に関する参考文献であり、臨床的ガイダンスではありません。

Core questions

症例群と対照群の祖先の違いは、どのようにして見かけ上の関連性を生み出すのでしょうか？
層別化はどのように検出され、ゲノムコントロール因子のインフレーションは何を示唆するのでしょうか？
主成分分析は祖先をどのように補正するのでしょうか？
構造と血縁関係を扱う上で、混合モデルが好まれるのはどのような場合でしょうか？
GWASのヨーロッパ系祖先への偏りは、なぜ一般化可能性を制限するのでしょうか？

Key concepts

祖先による交絡
ゲノムコントロールとインフレーションファクター（ラムダ）
遺伝子型の主成分分析
祖先情報マーカー
構造と血縁関係のための線形混合モデル
混血と連続的な祖先
祖先間の発見とポリジェニックスコアの転用可能性

Mechanisms

祖先が異なるサブグループが症例群と対照群で不均等に表現され、かつ疾患リスクと対立遺伝子頻度の両方がこれらのサブグループ間で異なる場合、対立遺伝子頻度は因果関係ではなく祖先を介して形質を追跡し、ゲノム全体で検定統計量を膨張させます。検出はこのゲノムワイドなシグナルに依存します。ゲノムコントロールインフレーションファクターは、中央値の検定統計量がその帰無仮説の期待値をどれだけ超えているかを要約し、ゲノムワイドな遺伝子型の主成分分析は、サンプル間の祖先変動の軸を明らかにします。補正は通常、回帰分析に主要な主成分を共変量として含めることで祖先シグナルを吸収するか、遺伝的関係行列を介して構造と隠れた血縁関係を同時に考慮する線形混合モデルを使用します。1000 Genomes Projectのような参照パネルは、サンプルをグローバルな祖先マップ上に配置し、インピュテーションに役立ちます。ほとんどのGWASサンプルはヨーロッパ系祖先であるため、適切に補正された分析であっても、他の集団には不完全にしか転用できない効果推定値とポリジェニックスコアが得られます。

Clinical relevance

祖先の調整は、疾患研究で使用される遺伝的エビデンスの妥当性にとって不可欠であり、研究の祖先構成は、ゲノムの発見とスコアに誰の生物学が表現されているかに直接影響します。このトピックは方法論と公平性の考慮事項を記述するものであり、個別の遺伝子検査や臨床的解釈の根拠となるものではありません。

Evidence & guidelines

ここでの基準は、臨床ガイドラインではなく、方法論に関する文献に由来します。Priceら（2006）は、スケーラブルな解決策として主成分補正（EIGENSTRATアプローチ）を導入しました。Priceら（2010）は、混合モデルを含む戦略をレビューし、拡張しました。1000 Genomes Project（2015）は、祖先を特徴付けるために必要な多様な参照を提供しました。そして、Visscherら（2017）は、祖先の不均衡が一般化可能性と公平性に与える影響を強調しています。

History

祖先が遺伝的関連性を交絡させる可能性への懸念はGWAS以前から存在し、ゲノムコントロールや構造化関連性などの初期のアプローチがその対処のために開発されました。2006年の主成分分析の導入は、連続的な祖先をモデル化する高速なゲノムワイドな方法を提供し、標準的な実践となり、後に血縁関係も扱う混合モデル法によって補完されました。GWASがバイオバンクに拡大するにつれて、主にヨーロッパ系のサンプル内での層別化を制御しても、他の祖先の過小評価というより大きな問題は解決されないことが、この分野でますます認識されるようになりました。

Debates

祖先補正は交絡を完全に除去するのか、それとも真のシグナルも除去してしまう可能性があるのか？: 主成分と混合モデルは、ほとんどの状況で層別化を効果的に制御しますが、交絡と真の祖先相関生物学を区別し、真の効果を消去する過剰補正を避けることは、特に微妙な地理的構造を持つ形質の場合、方法論的な判断が依然として必要です。
GWASのヨーロッパ系祖先への偏りは、公平性と妥当性を損なうのか？: 主にヨーロッパ系祖先のサンプルから得られた発見とポリジェニックスコアは、他の集団には不完全にしか転用されず、一般化可能性に関する科学的懸念と、ゲノム医療の恩恵の分配に関する公平性の懸念を引き起こしています。

Key figures

Alkes Price
David Reich
Nick Patterson
Noah Zaitlen
Peter Visscher

Seminal works

price-2006
price-2010

Frequently asked questions

集団層別化はどのようにして誤ったGWAS結果を生み出すのですか？: 症例群と対照群の祖先が異なる場合、その祖先間で頻度が異なる変異は、因果関係ではなく祖先を介して形質と関連しているように見え、ゲノム全体に見かけ上の関連性を生み出します。
層別化は通常どのように補正されますか？: 標準的なアプローチでは、ゲノムワイドな遺伝子型の主要な主成分を共変量として含めるか、線形混合モデルを使用することで、関連性検定が祖先の違いそのものではなく、祖先内の効果を反映するようにします。