Genomassemblierungsalgorithmen und -methoden
Die Genomassemblierung ist das rechnerische Problem, ein Genom aus den vielen überlappenden kurzen oder langen Reads zu rekonstruieren, die durch Sequenzierung erzeugt werden, da keine aktuelle Technologie ein ganzes Chromosom von Ende zu Ende lesen kann. Die Algorithmen, die dieses Problem lösen, bestimmen, wie vollständig und genau ein Genom aus Rohsequenzdaten wiederhergestellt werden kann.
Definition
Genomassemblierung ist die algorithmische Rekonstruktion der Sequenz eines Genoms durch das Erkennen von Überlappungen zwischen Sequenzierungs-Reads und deren Zusammenführung zu längeren zusammenhängenden Sequenzen (Contigs), die dann entweder ohne (De novo) oder mit (referenzgestützt) einer vorhandenen Referenz zu Scaffolds geordnet und ausgerichtet werden können.
Scope
Der Eintrag behandelt die beiden dominierenden algorithmischen Paradigmen, Overlap-Layout-Consensus und den De-Bruijn-Graphen, die Unterscheidung zwischen De-novo-Assemblierung und referenzgestützter Assemblierung sowie die Konzepte von Contigs und Scaffolds. Es handelt sich um ein methodisches Thema, das sich auf den rechnerischen Rekonstruktionsschritt konzentriert und keine Laborprotokolle oder klinische Anwendungen behandelt.
Core questions
- Warum müssen Sequenzierungs-Reads assembliert werden, anstatt direkt als ganze Chromosomen gelesen zu werden?
- Wie unterscheiden sich Overlap-Layout-Consensus- und De-Bruijn-Graph-Ansätze?
- Was begrenzt die Vollständigkeit der Assemblierung, und welche Rolle spielen Wiederholungen und Read-Länge?
Key concepts
- Overlap-Layout-Consensus-Assemblierung
- De-Bruijn-Graph-Assemblierung
- k-mere
- Contigs und Scaffolds
- De-novo- versus referenzgestützte Assemblierung
- Auflösung von Wiederholungen
- Assemblierungs-Kontiguität (z.B. N50)
Mechanisms
Assemblierungsalgorithmen rekonstruieren ein Genom, indem sie die Überlappungen zwischen Reads nutzen. Overlap-Layout-Consensus-Methoden berechnen paarweise Überlappungen zwischen Reads, ordnen sie in einem Layout an und leiten eine Konsensussequenz ab; dieser Ansatz eignete sich für längere Reads und bildete die Grundlage früherer Whole-Genome-Shotgun-Assemblierungen. De-Bruijn-Graph-Methoden zerlegen Reads stattdessen in Subsequenzen fester Länge (k-mere) und stellen das Genom als Pfade durch einen Graphen überlappender k-mere dar, was effizient auf die sehr großen Mengen kurzer Reads skaliert, die durch Hochdurchsatzsequenzierung erzeugt werden. Repetitive Regionen, die länger als die Read-Länge sind, erzeugen Mehrdeutigkeiten, die Assemblierungen fragmentieren, daher werden längere Reads und gepaarte Informationen verwendet, um diese aufzulösen und Contigs zu Scaffolds zu verknüpfen.
Clinical relevance
Die Genomassemblierung ist die rechnerische Grundlage, die Rohsequenzierungsdaten in zusammenhängende Sequenzen umwandelt, die zum Aufbau von Referenzgenomen und zur Untersuchung zuvor uncharakterisierter Organismen verwendet werden. Dieser Eintrag ist Referenz- und Bildungsmaterial, das beschreibt, wie die Assemblierung funktioniert, und ist keine Anleitung für klinische oder diagnostische Verfahren.
Evidence & guidelines
Die methodische Literatur ist primär und übersichtsbasiert und nicht leitlinienbasiert: Idury und Waterman (1995) führten eine Graphenformulierung ein, die die De-Bruijn-Assemblierung vorwegnahm, Zerbino und Birney (2008) etablierten die De-Bruijn-Graphen-Assemblierung für kurze Reads mit Velvet, und die Whole-Genome-Shotgun-Assemblierung des menschlichen Genoms (Venter et al., 2001) veranschaulicht das Overlap-Layout-Consensus-Paradigma in großem Maßstab.
History
Frühe Assembler verwendeten Overlap-Layout-Consensus-Methoden, die gut für die relativ langen Reads der Sanger-Sequenzierung geeignet waren, wie bei der Whole-Genome-Shotgun-Assemblierung des menschlichen Genoms im Jahr 2001. Die Umstellung auf die Hochdurchsatzsequenzierung kurzer Reads machte De-Bruijn-Graph-Methoden, die durch Graphenformulierungen aus der Mitte der 1990er Jahre antizipiert und in Tools wie Velvet (2008) realisiert wurden, zum dominierenden Paradigma, während die spätere Rückkehr langer Reads das Interesse an überlappungsbasierten Ansätzen zur Auflösung von Wiederholungen erneuerte.
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- Was ist der Unterschied zwischen De-novo- und referenzgestützter Assemblierung?
- Die De-novo-Assemblierung rekonstruiert ein Genom allein aus Reads, ohne eine vorherige Sequenz zu verwenden, während die referenzgestützte Assemblierung Reads gegen ein vorhandenes Referenzgenom ausrichtet oder zu Scaffolds zusammenfügt, um die Rekonstruktion zu unterstützen.
- Warum sind repetitive Regionen schwer zu assemblieren?
- Wenn eine Wiederholung länger ist als die Reads, die sie überspannen, kann der Algorithmus nicht erkennen, von welcher Kopie ein Read stammt, was zu mehrdeutigen Pfaden führt, die die Assemblierung in kürzere Fragmente zerlegen; längere Reads helfen, diese Wiederholungen aufzulösen.