Was ist der Unterschied zwischen De-novo- und referenzgestützter Assemblierung?

Die De-novo-Assemblierung rekonstruiert ein Genom allein aus Reads, ohne eine vorherige Sequenz zu verwenden, während die referenzgestützte Assemblierung Reads gegen ein vorhandenes Referenzgenom ausrichtet oder zu Scaffolds zusammenfügt, um die Rekonstruktion zu unterstützen.

Warum sind repetitive Regionen schwer zu assemblieren?

Wenn eine Wiederholung länger ist als die Reads, die sie überspannen, kann der Algorithmus nicht erkennen, von welcher Kopie ein Read stammt, was zu mehrdeutigen Pfaden führt, die die Assemblierung in kürzere Fragmente zerlegen; längere Reads helfen, diese Wiederholungen aufzulösen.

Genomassemblierungsalgorithmen und -methoden

Die Genomassemblierung ist das rechnerische Problem, ein Genom aus den vielen überlappenden kurzen oder langen Reads zu rekonstruieren, die durch Sequenzierung erzeugt werden, da keine aktuelle Technologie ein ganzes Chromosom von Ende zu Ende lesen kann. Die Algorithmen, die dieses Problem lösen, bestimmen, wie vollständig und genau ein Genom aus Rohsequenzdaten wiederhergestellt werden kann.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Genomassemblierung ist die algorithmische Rekonstruktion der Sequenz eines Genoms durch das Erkennen von Überlappungen zwischen Sequenzierungs-Reads und deren Zusammenführung zu längeren zusammenhängenden Sequenzen (Contigs), die dann entweder ohne (De novo) oder mit (referenzgestützt) einer vorhandenen Referenz zu Scaffolds geordnet und ausgerichtet werden können.

Scope

Der Eintrag behandelt die beiden dominierenden algorithmischen Paradigmen, Overlap-Layout-Consensus und den De-Bruijn-Graphen, die Unterscheidung zwischen De-novo-Assemblierung und referenzgestützter Assemblierung sowie die Konzepte von Contigs und Scaffolds. Es handelt sich um ein methodisches Thema, das sich auf den rechnerischen Rekonstruktionsschritt konzentriert und keine Laborprotokolle oder klinische Anwendungen behandelt.

Core questions

Warum müssen Sequenzierungs-Reads assembliert werden, anstatt direkt als ganze Chromosomen gelesen zu werden?
Wie unterscheiden sich Overlap-Layout-Consensus- und De-Bruijn-Graph-Ansätze?
Was begrenzt die Vollständigkeit der Assemblierung, und welche Rolle spielen Wiederholungen und Read-Länge?

Key concepts

Overlap-Layout-Consensus-Assemblierung
De-Bruijn-Graph-Assemblierung
k-mere
Contigs und Scaffolds
De-novo- versus referenzgestützte Assemblierung
Auflösung von Wiederholungen
Assemblierungs-Kontiguität (z.B. N50)

Mechanisms

Assemblierungsalgorithmen rekonstruieren ein Genom, indem sie die Überlappungen zwischen Reads nutzen. Overlap-Layout-Consensus-Methoden berechnen paarweise Überlappungen zwischen Reads, ordnen sie in einem Layout an und leiten eine Konsensussequenz ab; dieser Ansatz eignete sich für längere Reads und bildete die Grundlage früherer Whole-Genome-Shotgun-Assemblierungen. De-Bruijn-Graph-Methoden zerlegen Reads stattdessen in Subsequenzen fester Länge (k-mere) und stellen das Genom als Pfade durch einen Graphen überlappender k-mere dar, was effizient auf die sehr großen Mengen kurzer Reads skaliert, die durch Hochdurchsatzsequenzierung erzeugt werden. Repetitive Regionen, die länger als die Read-Länge sind, erzeugen Mehrdeutigkeiten, die Assemblierungen fragmentieren, daher werden längere Reads und gepaarte Informationen verwendet, um diese aufzulösen und Contigs zu Scaffolds zu verknüpfen.

Clinical relevance

Die Genomassemblierung ist die rechnerische Grundlage, die Rohsequenzierungsdaten in zusammenhängende Sequenzen umwandelt, die zum Aufbau von Referenzgenomen und zur Untersuchung zuvor uncharakterisierter Organismen verwendet werden. Dieser Eintrag ist Referenz- und Bildungsmaterial, das beschreibt, wie die Assemblierung funktioniert, und ist keine Anleitung für klinische oder diagnostische Verfahren.

Evidence & guidelines

Die methodische Literatur ist primär und übersichtsbasiert und nicht leitlinienbasiert: Idury und Waterman (1995) führten eine Graphenformulierung ein, die die De-Bruijn-Assemblierung vorwegnahm, Zerbino und Birney (2008) etablierten die De-Bruijn-Graphen-Assemblierung für kurze Reads mit Velvet, und die Whole-Genome-Shotgun-Assemblierung des menschlichen Genoms (Venter et al., 2001) veranschaulicht das Overlap-Layout-Consensus-Paradigma in großem Maßstab.

History

Frühe Assembler verwendeten Overlap-Layout-Consensus-Methoden, die gut für die relativ langen Reads der Sanger-Sequenzierung geeignet waren, wie bei der Whole-Genome-Shotgun-Assemblierung des menschlichen Genoms im Jahr 2001. Die Umstellung auf die Hochdurchsatzsequenzierung kurzer Reads machte De-Bruijn-Graph-Methoden, die durch Graphenformulierungen aus der Mitte der 1990er Jahre antizipiert und in Tools wie Velvet (2008) realisiert wurden, zum dominierenden Paradigma, während die spätere Rückkehr langer Reads das Interesse an überlappungsbasierten Ansätzen zur Auflösung von Wiederholungen erneuerte.

Key figures

Michael Waterman
Daniel Zerbino
Ewan Birney
Eugene Myers

Seminal works

idury-1995
zerbino-2008
venter-2001-asm

Frequently asked questions

Was ist der Unterschied zwischen De-novo- und referenzgestützter Assemblierung?: Die De-novo-Assemblierung rekonstruiert ein Genom allein aus Reads, ohne eine vorherige Sequenz zu verwenden, während die referenzgestützte Assemblierung Reads gegen ein vorhandenes Referenzgenom ausrichtet oder zu Scaffolds zusammenfügt, um die Rekonstruktion zu unterstützen.
Warum sind repetitive Regionen schwer zu assemblieren?: Wenn eine Wiederholung länger ist als die Reads, die sie überspannen, kann der Algorithmus nicht erkennen, von welcher Kopie ein Read stammt, was zu mehrdeutigen Pfaden führt, die die Assemblierung in kürzere Fragmente zerlegen; längere Reads helfen, diese Wiederholungen aufzulösen.