ヌクレオチド多様性とバリアント分類
ヌクレオチド多様性は、集団から無作為に選択された2つの配列が平均してどの程度異なるかを測定するものであり、バリアント分類は、一塩基置換、小さな挿入および欠失、より大きな構造変化といった多様なDNAの違いを一貫した用語体系に整理するものです。これらを合わせることで、ゲノムが持つ多様性の量とその種類を記述することができます。
Definition
ヌクレオチド多様性(一般的にpiと表記される)は、集団からサンプリングされた2つの配列間のサイトあたりの平均ヌクレオチド差数であり、バリアント分類は、観察された配列の違い(例:一塩基バリアント、インデル、構造バリアント)を体系的に分類することです。
Scope
この項目では、集団内の配列多様性の標準的な要約尺度、特にヌクレオチド多様性と分離部位数、およびサイズと配列への予測される影響によるバリアントタイプの分類について扱います。これらは記述的および方法論的な概念として扱われ、特定のバリアントに臨床的意義を割り当てるものではありません。
Core questions
- サンプル中の配列多様性の量はどのように要約されますか?
- ヌクレオチド多様性と分離部位数は、推定量としてどのように異なりますか?
- サイズとタイプによる遺伝的バリアントの主な分類は何ですか?
- バリアントは標準ファイル形式でどのように表現され、交換されますか?
Key concepts
- ヌクレオチド多様性 (pi)
- 分離部位とワッターソンのシータ
- 一塩基バリアント (SNV/SNP)
- 挿入欠失 (indel)
- 構造バリアント
- 参照アレルと代替アレル
- バリアントコールフォーマット (VCF)
Key theories
- 無限サイトモデルとシータ
- 無限サイト仮定の下では、各新規変異は以前に変異していないサイトに発生するため、集団変異パラメーターシータは、分離部位数(ワッターソンの推定器)または平均ペアワイズ差(ヌクレオチド多様性)のいずれかから推定できます。両者間の系統的な不一致は、中立性からの逸脱について情報を提供します。
Mechanisms
バリアントは、まずシーケンスリードを参照ゲノムにアラインメントし、異なる位置を特定することによって検出されます。その後、違いはサイズと形式によって分類されます。要約統計量は、これを集団レベルの尺度に凝縮します。分離部位数はワッターソンのシータ推定量の基礎となり、平均ペアワイズ差はヌクレオチド多様性を定義します。両者は中立で一定サイズのモデルの下で同じパラメーターを推定するため、それらの差(田島によって形式化された)は人口動態の変化や選択を示唆します。バリアントコールフォーマットにおける標準化された表現により、バリアントは研究間で保存、共有、比較することができます。
Clinical relevance
一貫したバリアント用語と信頼性の高い多様性推定は、健康環境におけるゲノムデータの解釈に不可欠です。なぜなら、シーケンスされたゲノムが臨床的に関連するバリアントについてスクリーニングされる際に、同じ記述的カテゴリーが使用されるからです。この項目は、バリアントがどのように記述され、数えられるかを説明するものであり、個々の診断や治療の決定の根拠となるものではありません。
Evidence & guidelines
配列多様性の基礎的な推定量はワッターソンと田島によって確立され、初期のヒトSNPマップや1000ゲノムプロジェクトリファレンスのような大規模な調査は、ヒトの多様性の経験的規模を提供しています。バリアントコールフォーマットとそのツールは、分類されたバリアントを表現するための事実上のコミュニティ標準となっています。
History
初期の分子集団遺伝学は、アロザイムや制限酵素部位の調査、そしてDNAシーケンスを通じて多様性を定量化しました。ワッターソンの1975年の研究と田島の1989年の研究は、今日でも使用されている推定量を提供し、2001年のヒトSNPマップとその後のシーケンスコンソーシアムは、バリアントのカタログ化をゲノムワイドな事業へと変え、その結果として得られるバリアントを表現するためのVCFのような標準フォーマットが伴いました。
Key figures
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
Related topics
Seminal works
- watterson-1975
- tajima-1989
- snp-map-2001
Frequently asked questions
- ヌクレオチド多様性と分離部位数の違いは何ですか?
- 分離部位数はサンプル中で変動する位置の数を数えるのに対し、ヌクレオチド多様性は配列のペア間の平均差を計算します。両者は単純な中立モデルの下では同じ根底にあるパラメーターを推定し、それらの不一致自体が情報を提供します。
- SNPは突然変異と同じものですか?
- SNPは集団内で分離して観察される一塩基バリアントです。これは点突然変異に由来しますが、この用語は、そのバリアントが1人の個体で新たに生じた変化であるというよりも、かなりの頻度で存在することを強調しています。