混血と祖先推定法
混血と祖先推定法は、個人の遺伝子型から、異なる祖先集団に由来するゲノムの割合を推定し、過去に集団間で遺伝子交換があったかどうかを検証します。これらの方法は、対立遺伝子共有のパターンを祖先と集団混合に関する定量的な記述に変換します。
Definition
祖先推定とは、遺伝子データから個人のゲノムの祖先源を推定することであり、混血推定は特に、異なる祖先集団によって寄与された割合を推定し、それらの間の歴史的な遺伝子流動を検証します。
Scope
本項目では、モデルベースのクラスタリングと祖先割合の推定、次元削減アプローチ、および混血の形式的検定について、これらの手法が依拠する仮定とともに扱います。これは方法論的なトピックであり、遺伝的祖先の統計的推論を記述するものであり、祖先カテゴリーに関する臨床的または社会的な主張を行うものではありません。
Core questions
- 遺伝子型データから祖先割合はどのように推定されますか?
- モデルベースのクラスタリングと主成分分析アプローチはどのように異なりますか?
- 集団間の過去の遺伝子流動はどのように形式的に検証されますか?
- 祖先推定に影響を与える仮定と限界は何ですか?
Key concepts
- 祖先割合
- モデルベースクラスタリング (STRUCTURE/ADMIXTURE)
- ソース集団の数 (K)
- 主成分分析
- f統計量と混血検定
- 祖先のための参照パネル
Key theories
- モデルベースの祖先混合
- 各個人のゲノムは、異なる対立遺伝子頻度を持つK個の祖先集団から引き出された混合物としてモデル化されます。尤度ベースまたはベイズベースの手法は、祖先の対立遺伝子頻度と各個人の祖先割合を共同で推定し、構造の確率的分解を提供します。
Mechanisms
モデルベースの手法では、各ゲノムをK個の祖先集団からの混合物として扱い、尤度またはベイズ推論によって、祖先の対立遺伝子頻度と各個人の混合割合の両方を推定します。効率的な最尤実装により、ゲノムスケールでのこれが可能になりました。相補的なアプローチとして、主成分分析を用いて、事前に集団を指定することなく、個人を低次元の祖先空間に配置する方法があります。f統計量に基づいた形式的な混血検定は、集団間の対立遺伝子共有パターンを比較して、歴史的な遺伝子流動を検出し定量化します。これらすべては、適切な参照集団と、ソース集団の数の選択に依存します。
Clinical relevance
祖先推定は、遺伝学的研究における集団構造の適切な取り扱いと、ゲノム結果を解釈する際の祖先が一致する参照データの適切な使用をサポートします。本項目は、遺伝的祖先を推定するために使用される統計的手法を記述するものであり、個人の診断や治療の決定の根拠となるものではなく、遺伝的祖先を社会的アイデンティティと同一視するものでもありません。
Evidence & guidelines
モデルベースの祖先推定はSTRUCTUREフレームワークによって確立され、最尤実装によってスケーラブルになりました。一方、主成分分析法とf統計量混血検定は、相補的で広く使用されているアプローチを提供します。世界中のヒトの多様性に関するゲノムワイド調査は、集団全体でのこれらの応用を示しています。
History
多遺伝子型(multilocus genotypes)のモデルベースクラスタリングは2000年頃に導入され、集団構造を記述するための標準的な方法として急速に普及しました。ゲノムワイドデータが増加するにつれて、より高速な最尤実装がそれに続きました。主成分分析法は2000年代半ばに祖先推定に応用され、f統計量フレームワークは古代の混血の検定を形式化し、これらすべてが祖先と混血の推定を集団ゲノミクスの中心的なツールとしました。
Debates
- ソース集団の数 (K) はどのように選択し、解釈すべきか?
- モデルベースの手法ではKを指定または選択する必要がありますが、推論されたクラスターは統計的な構成物であり、その解釈はサンプリングとKに依存します。それらを自然で離散的な集団として扱うと誤解を招く可能性があります。
Key figures
- Jonathan Pritchard
- John Novembre
- David Reich
- Nick Patterson
Related topics
Seminal works
- pritchard-2000
- alexander-2009
- patterson-2012
Frequently asked questions
- ある集団からの祖先割合が例えば30%であるとはどういう意味ですか?
- これは、個人のゲノムのおよそ30%が、その推論された祖先源の対立遺伝子頻度によって最もよく説明されるというモデルベースの推定値です。これは、選択された参照集団に対する統計的な分解であり、固定された生物学的ラベルではありません。
- 集団間の混血はどのように検出されますか?
- f統計量に基づいた形式的な検定は、複数の集団間の共有変異のパターンを比較します。遺伝子流動がない場合に予想されるものからの逸脱は、混血が発生した証拠を提供します。