Was ist der Unterschied zwischen Sequenzierung und Assemblierung?

Die Sequenzierung liest die Reihenfolge der Nukleotide in DNA-Fragmenten, während die Assemblierung der rechnerische Schritt ist, der diese Fragmente zu längeren, zusammenhängenden Sequenzen wie Contigs, Scaffolds oder ganzen Chromosomen rekonstruiert.

Warum benötigt das Feld ein Referenzgenom?

Ein Referenzgenom bietet ein gemeinsames, versioniertes Koordinatensystem, damit neue Sequenzdaten von verschiedenen Individuen und Laboren konsistent ausgerichtet, verglichen und interpretiert werden können.

Genomsequenzierung, -assemblierung und Referenzstandards

Dieser Bereich befasst sich damit, wie die Reihenfolge der Nukleotide in einem Genom abgelesen wird, wie die resultierenden Fragmente zu längeren zusammenhängenden Sequenzen rekonstruiert werden und wie kuratierte Referenzgenome erstellt und gepflegt werden, damit neue Daten an einem gemeinsamen Standard ausgerichtet und interpretiert werden können. Zusammen bilden diese Schritte die technische Grundlage, auf der nahezu die gesamte Genomik beruht.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Genomsequenzierung ist die Bestimmung der Nukleotidreihenfolge der DNA eines Organismus; Assemblierung ist die rechnerische Rekonstruktion überlappender Sequenz-Reads zu längeren zusammenhängenden Sequenzen; und Referenzstandards sind die kuratierten, versionierten Genomassemblierungen und Annotationen, an denen neue Sequenzdaten ausgerichtet und verglichen werden.

Scope

Der Bereich umfasst Sequenzierungschemien von der Sanger-Didesoxy-Sequenzierung über Hochdurchsatz-Short-Read- und Long-Read-Plattformen, die rechnerische Assemblierung von Reads zu Contigs und Scaffolds, die Konstruktion und Annotation von Referenzgenomen wie GRCh38 und der Telomer-zu-Telomer-Assemblierung sowie die Qualitätskontroll- und Fehlerkorrekturschritte, die die Datenzuverlässigkeit bestimmen. Diese werden als methodische und infrastrukturelle Themen behandelt, nicht als klinische Verfahren.

Sub-topics

Core questions

Wie wird die Nukleotidreihenfolge eines Genoms bestimmt und wie haben sich die Sequenzierungschemien entwickelt?
Wie werden kurze oder lange Sequenz-Reads zu einem vollständigen Genom rekonstruiert?
Was macht eine Genomassemblierung zu einer nutzbaren Referenz, und wie wird sie versioniert und annotiert?
Wie werden Sequenzierungsfehler erkannt, quantifiziert und korrigiert, damit nachfolgende Analysen vertrauenswürdig sind?

Key concepts

Read, Contig und Scaffold
Coverage und Sequenzierungstiefe
Short-Read- versus Long-Read-Sequenzierung
De-novo-Assemblierung versus referenzgesteuerte Ausrichtung
Referenzgenom und Genom-Build (z. B. GRCh38)
Genomannotation
Basenqualitäts- (Phred-)Score

Mechanisms

Sequenzierungsplattformen wandeln physikalische DNA in maschinenlesbare Basenrufe um, die jeweils von einer Qualitätsschätzung begleitet werden. Da die meisten Plattformen nur Fragmente lesen, die wesentlich kürzer als ein Chromosom sind, müssen die Fragmente assembliert werden: Die De-novo-Assemblierung rekonstruiert das Genom aus Read-Überlappungen (historisch Overlap-Layout-Consensus, heute oft de Bruijn-Graphen für Short Reads), während die referenzgesteuerte Analyse Reads an eine bestehende Assemblierung anpasst. Ein Referenzgenom ist eine kuratierte Konsensussequenz, die als aufeinanderfolgende Builds versioniert und mit Annotationen versehen ist und das Koordinatensystem für das Feld bereitstellt. Qualitätskontrolle und Fehlerkorrektur erstrecken sich über die gesamte Pipeline, schätzen die Basengenauigkeit und entfernen oder korrigieren Artefakte, bevor Varianten aufgerufen werden.

Clinical relevance

Zuverlässige Sequenzierungs-, Assemblierungs- und Referenzstandards untermauern die klinische und Forschungsgenomik, da die Varianteninterpretation von genauen Reads abhängt, die an einer gut charakterisierten Referenz ausgerichtet sind. Dieser Bereich beschreibt die Infrastruktur, die genomische Evidenz generiert; er ist Referenz- und Bildungsmaterial und keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.

Evidence & guidelines

Die hier beschriebenen Methoden sind eher durch wegweisende Primärstudien und Konsortialberichte als durch klinische Leitlinien dokumentiert: Sangers Kettenabbruchmethode (1977), der Entwurf des Humangenomprojekts (2001), Übersichten über Next-Generation-Plattformen (Metzker, 2010) und das vollständige Telomer-zu-Telomer-Humangenom (Nurk et al., 2022) zeichnen die Entwicklung des Feldes nach.

History

Die DNA-Sequenzierung begann 1977 mit Sangers Kettenabbruchchemie, die es ermöglichte, die ersten Genome zu lesen und den Entwurf der Sequenz des Humangenomprojekts im Jahr 2001 voranzutreiben. Der anschließende Aufstieg von Hochdurchsatz-Plattformen (Next-Generation) senkte die Kosten um Größenordnungen, und Long-Read-Technologien lösten später repetitive Regionen auf, was 2022 im ersten vollständigen, lückenlosen menschlichen Genom gipfelte.

Key figures

Frederick Sanger
Eric Lander
Michael Metzker
Sergey Koren
Adam Phillippy

Seminal works

sanger-1977
ihgsc-2001
metzker-2009
nurk-2022

Frequently asked questions

Was ist der Unterschied zwischen Sequenzierung und Assemblierung?: Die Sequenzierung liest die Reihenfolge der Nukleotide in DNA-Fragmenten, während die Assemblierung der rechnerische Schritt ist, der diese Fragmente zu längeren, zusammenhängenden Sequenzen wie Contigs, Scaffolds oder ganzen Chromosomen rekonstruiert.
Warum benötigt das Feld ein Referenzgenom?: Ein Referenzgenom bietet ein gemeinsames, versioniertes Koordinatensystem, damit neue Sequenzdaten von verschiedenen Individuen und Laboren konsistent ausgerichtet, verglichen und interpretiert werden können.