Genomsequenzierung, -assemblierung und Referenzstandards
Dieser Bereich befasst sich damit, wie die Reihenfolge der Nukleotide in einem Genom abgelesen wird, wie die resultierenden Fragmente zu längeren zusammenhängenden Sequenzen rekonstruiert werden und wie kuratierte Referenzgenome erstellt und gepflegt werden, damit neue Daten an einem gemeinsamen Standard ausgerichtet und interpretiert werden können. Zusammen bilden diese Schritte die technische Grundlage, auf der nahezu die gesamte Genomik beruht.
Definition
Genomsequenzierung ist die Bestimmung der Nukleotidreihenfolge der DNA eines Organismus; Assemblierung ist die rechnerische Rekonstruktion überlappender Sequenz-Reads zu längeren zusammenhängenden Sequenzen; und Referenzstandards sind die kuratierten, versionierten Genomassemblierungen und Annotationen, an denen neue Sequenzdaten ausgerichtet und verglichen werden.
Scope
Der Bereich umfasst Sequenzierungschemien von der Sanger-Didesoxy-Sequenzierung über Hochdurchsatz-Short-Read- und Long-Read-Plattformen, die rechnerische Assemblierung von Reads zu Contigs und Scaffolds, die Konstruktion und Annotation von Referenzgenomen wie GRCh38 und der Telomer-zu-Telomer-Assemblierung sowie die Qualitätskontroll- und Fehlerkorrekturschritte, die die Datenzuverlässigkeit bestimmen. Diese werden als methodische und infrastrukturelle Themen behandelt, nicht als klinische Verfahren.
Sub-topics
Core questions
- Wie wird die Nukleotidreihenfolge eines Genoms bestimmt und wie haben sich die Sequenzierungschemien entwickelt?
- Wie werden kurze oder lange Sequenz-Reads zu einem vollständigen Genom rekonstruiert?
- Was macht eine Genomassemblierung zu einer nutzbaren Referenz, und wie wird sie versioniert und annotiert?
- Wie werden Sequenzierungsfehler erkannt, quantifiziert und korrigiert, damit nachfolgende Analysen vertrauenswürdig sind?
Key concepts
- Read, Contig und Scaffold
- Coverage und Sequenzierungstiefe
- Short-Read- versus Long-Read-Sequenzierung
- De-novo-Assemblierung versus referenzgesteuerte Ausrichtung
- Referenzgenom und Genom-Build (z. B. GRCh38)
- Genomannotation
- Basenqualitäts- (Phred-)Score
Mechanisms
Sequenzierungsplattformen wandeln physikalische DNA in maschinenlesbare Basenrufe um, die jeweils von einer Qualitätsschätzung begleitet werden. Da die meisten Plattformen nur Fragmente lesen, die wesentlich kürzer als ein Chromosom sind, müssen die Fragmente assembliert werden: Die De-novo-Assemblierung rekonstruiert das Genom aus Read-Überlappungen (historisch Overlap-Layout-Consensus, heute oft de Bruijn-Graphen für Short Reads), während die referenzgesteuerte Analyse Reads an eine bestehende Assemblierung anpasst. Ein Referenzgenom ist eine kuratierte Konsensussequenz, die als aufeinanderfolgende Builds versioniert und mit Annotationen versehen ist und das Koordinatensystem für das Feld bereitstellt. Qualitätskontrolle und Fehlerkorrektur erstrecken sich über die gesamte Pipeline, schätzen die Basengenauigkeit und entfernen oder korrigieren Artefakte, bevor Varianten aufgerufen werden.
Clinical relevance
Zuverlässige Sequenzierungs-, Assemblierungs- und Referenzstandards untermauern die klinische und Forschungsgenomik, da die Varianteninterpretation von genauen Reads abhängt, die an einer gut charakterisierten Referenz ausgerichtet sind. Dieser Bereich beschreibt die Infrastruktur, die genomische Evidenz generiert; er ist Referenz- und Bildungsmaterial und keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
Evidence & guidelines
Die hier beschriebenen Methoden sind eher durch wegweisende Primärstudien und Konsortialberichte als durch klinische Leitlinien dokumentiert: Sangers Kettenabbruchmethode (1977), der Entwurf des Humangenomprojekts (2001), Übersichten über Next-Generation-Plattformen (Metzker, 2010) und das vollständige Telomer-zu-Telomer-Humangenom (Nurk et al., 2022) zeichnen die Entwicklung des Feldes nach.
History
Die DNA-Sequenzierung begann 1977 mit Sangers Kettenabbruchchemie, die es ermöglichte, die ersten Genome zu lesen und den Entwurf der Sequenz des Humangenomprojekts im Jahr 2001 voranzutreiben. Der anschließende Aufstieg von Hochdurchsatz-Plattformen (Next-Generation) senkte die Kosten um Größenordnungen, und Long-Read-Technologien lösten später repetitive Regionen auf, was 2022 im ersten vollständigen, lückenlosen menschlichen Genom gipfelte.
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- Was ist der Unterschied zwischen Sequenzierung und Assemblierung?
- Die Sequenzierung liest die Reihenfolge der Nukleotide in DNA-Fragmenten, während die Assemblierung der rechnerische Schritt ist, der diese Fragmente zu längeren, zusammenhängenden Sequenzen wie Contigs, Scaffolds oder ganzen Chromosomen rekonstruiert.
- Warum benötigt das Feld ein Referenzgenom?
- Ein Referenzgenom bietet ein gemeinsames, versioniertes Koordinatensystem, damit neue Sequenzdaten von verschiedenen Individuen und Laboren konsistent ausgerichtet, verglichen und interpretiert werden können.