ゲノムシーケンシングとアセンブリ
ゲノムを読み取るということは、その数十億の塩基の順序を決定することを意味しますが、シーケンシング装置は短い断片でしか読み取ることができません。そのため、ソフトウェアがこれらの断片の重なりを見つけることで、完全な配列を再構築します。
Definition
ゲノムシーケンシングとは、生物のDNAのヌクレオチド配列を実験的に決定することであり、アセンブリとは、シーケンサーが生成する多数の短いリードから完全な配列を計算によって再構築することです。
Scope
このトピックでは、サンガー・ジデオキシシーケンシング、次世代シーケンシングおよびロングリードシーケンシングの原理、全ゲノムショットガン法とクローンベース戦略、リードからコンティグおよびスキャフォールドへの計算によるアセンブリ、カバレッジや連続性などのアセンブリ品質の測定、および結果として得られる参照ゲノムについて扱います。ゲノム配列がどのように決定されるかについて説明し、その配列の解釈については隣接するトピックで扱います。
Core questions
- サンガーシーケンシングは、鎖終結剤を使用してどのように塩基の順序を決定するのでしょうか?
- 次世代シーケンシングとロングリードシーケンシングをより速く、より安価にしている要因は何ですか?また、それらのトレードオフは何ですか?
- 数百万の重複するリードはどのようにして染色体にアセンブリされるのでしょうか?
- カバレッジと連続性の測定値は、アセンブリの品質について何を教えてくれるのでしょうか?
Key concepts
- サンガー・ジデオキシシーケンシング
- 次世代シーケンシングとロングリードシーケンシング
- 全ゲノムショットガン戦略
- リードのアセンブリ:コンティグとスキャフォールド
- カバレッジ、連続性、および参照ゲノム
Mechanisms
サンガーシーケンシングは、鎖終結ジデオキシヌクレオチドを使用して、配列の長さを明らかにするフラグメントのラダーを生成します。一方、マッシブパラレルプラットフォームは一度に数百万のフラグメントを読み取り、アセンブリソフトウェアはリード間の重なりを検出してそれらをコンティグに結合し、各染色体に沿ってこれらをスキャフォールドに順序付けおよび方向付けします。
Clinical relevance
手頃な価格のシーケンシングにより、全ゲノムシーケンシングとエクソームシーケンシングは、希少遺伝性疾患の診断、腫瘍のプロファイリング、病原体の特定、新生児スクリーニングにおいて日常的に行われるようになり、配列決定は画期的なプロジェクトから標準的な検査へと変化しました。
History
サンガーは1977年に鎖終結シーケンシングを導入し、ヒトゲノムプロジェクトはクローン・バイ・クローン法とショットガン法を適用して2001年にヒトゲノムのドラフト配列を作成しました。2000年代半ばに次世代シーケンシングが登場し、その後ロングリードプラットフォームが開発されたことで、ヒトゲノムのコストは数十億ドルから数百ドルへと劇的に低下しました。
Key figures
- Frederick Sanger
- Eric Lander
- Craig Venter
Related topics
Seminal works
- sanger1977
- lander2001
Frequently asked questions
- ゲノムは、ただ読み通すのではなく、なぜアセンブリする必要があるのですか?
- シーケンシング装置は一度に短いDNA断片しか読み取ることができないため、ゲノムは無数の断片に分解されます。その後、アセンブリソフトウェアは、断片が重なる部分を検出することで元の順序を再構築します。
- シーケンシングカバレッジとは何を意味しますか?
- カバレッジとは、ゲノム内の各塩基が読み取られる平均回数です。カバレッジが高いほど、各コールに対する信頼性が高まり、真のバリアントとシーケンシングエラーを区別するのに役立ちます。