連鎖不平衡とSNPタギング
連鎖不平衡(LD)とは、ゲノム内の異なる位置にある対立遺伝子が非ランダムに共起する現象であり、近接するバリアントはハプロタイプブロックとして一緒に遺伝する傾向があります。この相関関係があるため、ゲノムワイド関連解析は費用対効果が高くなります。すなわち、ジェノタイピングアレイは、慎重に選択された「タグ」SNPのサブセットのみをタイピングすればよいのです。なぜなら、各タグは、それと強いLDにある未タイピングのバリアントを統計的に代表するからです。
Definition
連鎖不平衡とは、2つ以上の遺伝子座における対立遺伝子間の統計的関連、すなわち、それらが独立していると仮定した場合に予想されるよりも多くまたは少なくハプロタイプ上で共起することであり、SNPタギングとは、LDを介して未タイピングの隣接部位のバリアントを捕捉するバリアントのサブセットを使用することです。
Scope
このトピックでは、LDとは何か、どのように測定されるか(D'とr二乗)、組換えと集団の歴史によって形成されるブロックの形状、一般的なバリアントを効率的に捕捉するためにタグSNPがどのように選択されるか、そしてLDが関連マッピングを可能にすると同時に原因バリアントの特定を複雑にする方法について説明します。これは方法論的な参照であり、臨床的ガイダンスではありません。
Core questions
- 2つのバリアントが連鎖不平衡にあるとはどういう意味ですか?
- D'とr二乗はLDを定量化するためにどのように使用され、どのように異なりますか?
- ゲノムはなぜハプロタイプブロックに分かれ、その境界は何によって決定されますか?
- アレイがほとんどの一般的なバリアントを捕捉するように、タグSNPはどのように選択されますか?
- LDは、関連領域内の実際の原因バリアントを特定することをなぜ困難にするのですか?
Key concepts
- ハプロタイプとハプロタイプブロック
- D'(正規化不平衡係数)
- r二乗(マーカー間の相関)
- 組換えホットスポット
- タグSNP選択
- 参照ハプロタイプパネル(HapMap、1000 Genomes)
- 精密マッピングと原因バリアントの曖昧さ
Mechanisms
近接する遺伝子座の対立遺伝子は、組換えによって分離されるまで一緒に遺伝するため、世代を経るにつれてLDは遺伝的距離とともに減少し、組換えホットスポットで分断され、内部相関の高いブロックが生成されます。これを定量化する2つの一般的な尺度は、D'が2つの部位間で組換えが起こったかどうかを捉えるのに対し、r二乗は1つのバリアントが別のバリアントをどれだけよく予測するかを測定し、タグSNPが未タイピングの原因バリアントを代理する場合に失われる検出力を直接支配します。ブロック内のバリアントは強く相関しているため、アレイは選択されたタグSNPのセットをジェノタイプし、ほとんどの一般的なバリアントを回復できます。また、欠落しているバリアントは、HapMapや1000 Genomes Projectなどのシーケンスされた参照パネルに対して統計的に補完できます。タギングを可能にするのと同じ相関関係は、関連シグナルがブロック内の多くのバリアント間で共有されることも意味するため、真の原因バリアントを特定するには、最も有意なマーカーを単に採用するのではなく、追加の精密マッピングが必要です。
Clinical relevance
LD構造は、ゲノムワイドな遺伝的証拠がどのように生成され、疾患研究において関連領域がどのように解釈されるかの根底にあります。このトピックは、方法論と集団遺伝学を記述するものであり、個別の遺伝子検査や臨床的解釈の根拠となるものではありません。
Evidence & guidelines
ヒトのLD構造に関する知識は、臨床ガイドラインではなく、大規模な参照リソースに基づいています。International HapMap Project (2007) はゲノムワイドなLDとタグSNPをマッピングし、1000 Genomes Project (2015) は多様な集団にわたる参照ハプロタイプを拡張しました。また、Slatkin (2008) や Bush and Moore (2012) などのレビューは、LDの測定とタギングが関連マッピングにどのように適用されるかを説明しています。
History
対立遺伝子関連の概念はゲノミクス以前から存在していましたが、その実用的な重要性は、2000年代初頭にヒトゲノムが組換えホットスポットによって形成されるブロック状のハプロタイプ構造を持つことが発見されたことで高まりました。その後、HapMap ProjectはゲノムワイドなLDをカタログ化し、タグSNPの選択を可能にしました。これにより、最初の費用対効果の高いGWASアレイが直接実現しました。1000 Genomes Projectは後に参照パネルを多くの集団に拡大し、補完を改善し、LDパターンが祖先によってどのように異なるかを明らかにしました。
Debates
- LDパターンは集団間で移行しますか?
- ハプロタイプ構造とLDは集団の歴史によって異なるため、ある祖先で最適化されたタグSNPと補完パネルは、別の祖先ではバリアントを不完全にしか捕捉せず、他の集団におけるヨーロッパ由来のアレイやスコアの性能低下の一因となっています。
Key figures
- Montgomery Slatkin
- Mark Daly
- David Altshuler
- Goncalo Abecasis
- William Bush
Related topics
Seminal works
- slatkin-2008
- hapmap-2007
- 1000g-2015
Frequently asked questions
- 連鎖不平衡は、GWASが一部のバリアントのみをタイピングすることをどのように可能にしますか?
- ハプロタイプブロック内のバリアントは強く相関しているため、ジェノタイプされたタグSNPは、その未タイピングの隣接バリアントに関する情報を持っています。そのため、適切に選択されたタグのアレイは、ゲノム内のほとんどの一般的なバリアントを捕捉します。
- D'とr二乗の違いは何ですか?
- D'は、2つの対立遺伝子が歴史的に組換えによって分離されたかどうかを測定するのに対し、r二乗は、1つのバリアントが別のバリアントを統計的にどれだけよく予測するかを測定します。r二乗は、タグSNPベースの関連検定の検出力に最も関連する量です。