ゲノムシーケンス、アセンブリ、およびリファレンス標準
この分野では、ゲノムにおけるヌクレオチドの順序がどのように読み取られるか、得られた断片がどのようにしてより長い連続した配列に再構築されるか、そして新しいデータが共通の標準に対してアラインされ解釈されるように、キュレーションされたリファレンスゲノムがどのように構築および維持されるかを扱います。これらのステップは、ゲノミクス研究のほぼすべてを支える技術的基盤を形成しています。
Definition
ゲノムシーケンスとは、生物のDNAのヌクレオチド順序を決定することであり、アセンブリとは、重複するシーケンスリードをより長い連続した配列に計算的に再構築することであり、リファレンス標準とは、新しいシーケンスデータがアラインされ比較される、キュレーションされバージョン管理されたゲノムアセンブリとアノテーションのことです。
Scope
この分野は、サンガー・ジデオキシシーケンスからハイスループットなショートリードおよびロングリードプラットフォームに至るまでのシーケンス化学、リードをコンティグおよびスキャフォールドに計算的にアセンブルすること、GRCh38やテロメアからテロメアまでのアセンブリなどのリファレンスゲノムの構築とアノテーション、およびデータ信頼性を管理する品質管理とエラー修正のステップを網羅しています。これらは、臨床手順としてではなく、方法論的およびインフラストラクチャ的なトピックとして扱われます。
Sub-topics
Core questions
- ゲノムのヌクレオチド順序はどのように決定され、シーケンス化学はどのように進化してきたか?
- 短いまたは長いシーケンスリードはどのようにして完全なゲノムに再構築されるか?
- ゲノムアセンブリが利用可能なリファレンスとなるためには何が必要か、またどのようにバージョン管理されアノテーションされるか?
- シーケンスエラーはどのように検出、定量化、修正され、下流の解析が信頼できるものとなるか?
Key concepts
- リード、コンティグ、およびスキャフォールド
- カバレッジとシーケンス深度
- ショートリードシーケンスとロングリードシーケンス
- デノボアセンブリとリファレンスガイドアラインメント
- リファレンスゲノムとゲノムビルド(例:GRCh38)
- ゲノムアノテーション
- 塩基ごとの品質(Phred)スコア
Mechanisms
シーケンスプラットフォームは、物理的なDNAを機械で読み取り可能な塩基コールに変換し、それぞれに品質推定値が付随します。ほとんどのプラットフォームは染色体よりもはるかに短い断片しか読み取らないため、断片をアセンブルする必要があります。デノボアセンブリは、リードの重複からゲノムを再構築し(歴史的にはオーバーラップ・レイアウト・コンセンサス、現在はショートリードの場合デ・ブルイングラフがよく用いられます)、リファレンスガイドアセンブリは、既存のアセンブリにリードをアラインします。リファレンスゲノムは、キュレーションされたコンセンサス配列であり、連続するビルドとしてバージョン管理され、アノテーションが重ねられて、この分野の座標系を提供します。品質管理とエラー修正はパイプライン全体にわたって行われ、塩基ごとの精度を推定し、バリアントがコールされる前にアーティファクトを除去または修正します。
Clinical relevance
信頼性の高いシーケンス、アセンブリ、およびリファレンス標準は、臨床ゲノミクスおよび研究ゲノミクスを支える基盤となります。なぜなら、バリアントの解釈は、適切に特徴付けられたリファレンスにアラインされた正確なリードに依存するからです。この分野は、ゲノムエビデンスを生成するインフラストラクチャを説明するものであり、個別の診断や治療の決定の根拠となるものではなく、参照および教育資料です。
Evidence & guidelines
ここでの方法は、臨床ガイドラインではなく、画期的な一次研究やコンソーシアム報告書を通じて文書化されています。サンガーの鎖終結法(1977年)、ヒトゲノムプロジェクトのドラフト(2001年)、次世代プラットフォームのレビュー(Metzker、2010年)、および完全なテロメアからテロメアまでのヒトゲノム(Nurk et al.、2022年)が、この分野の軌跡をたどっています。
History
DNAシーケンスは1977年のサンガーの鎖終結化学から始まり、これにより最初のゲノムが読み取られ、2001年のヒトゲノムプロジェクトのドラフト配列が実現しました。その後のハイスループット(次世代)プラットフォームの台頭により、コストは桁違いに低下し、ロングリード技術は後に反復領域を解決し、2022年には最初の完全なギャップのないヒトゲノムが完成しました。
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- シーケンスとアセンブリの違いは何ですか?
- シーケンスはDNA断片のヌクレオチドの順序を読み取るのに対し、アセンブリはそれらの断片をコンティグ、スキャフォールド、または全染色体のようなより長く連続した配列に再構築する計算ステップです。
- なぜこの分野にはリファレンスゲノムが必要なのですか?
- リファレンスゲノムは、共有されバージョン管理された座標系を提供するため、異なる個人や研究室からの新しいシーケンスデータを一貫してアラインし、比較し、解釈することができます。