¿Cuál es la diferencia entre el ensamblaje de novo y el ensamblaje guiado por referencia?

El ensamblaje de novo reconstruye un genoma a partir de las lecturas únicamente, sin utilizar una secuencia previa, mientras que el ensamblaje guiado por referencia alinea o construye scaffolds a partir de las lecturas contra un genoma de referencia existente para ayudar en la reconstrucción.

¿Por qué las regiones repetitivas son difíciles de ensamblar?

Cuando una repetición es más larga que las lecturas que la abarcan, el algoritmo no puede determinar de qué copia proviene una lectura, lo que crea rutas ambiguas que fragmentan el ensamblaje en fragmentos más cortos; las lecturas más largas ayudan a resolver estas repeticiones.

Algoritmos y métodos de ensamblaje genómico

El ensamblaje genómico es el problema computacional de reconstruir un genoma a partir de las numerosas lecturas (reads) cortas o largas superpuestas producidas por la secuenciación, ya que ninguna tecnología actual permite leer un cromosoma completo de extremo a extremo. Los algoritmos que lo resuelven determinan cuán completa y precisamente se puede recuperar un genoma a partir de datos de secuencia brutos.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El ensamblaje genómico es la reconstrucción algorítmica de la secuencia de un genoma mediante la detección de superposiciones entre lecturas de secuenciación (sequencing reads) y su fusión en secuencias contiguas más largas (contigs), las cuales pueden luego ser ordenadas y orientadas en scaffolds, ya sea sin (de novo) o con (guiado por referencia) una referencia existente.

Scope

La entrada abarca los dos paradigmas algorítmicos dominantes, el de superposición-disposición-consenso (overlap-layout-consensus) y el grafo de De Bruijn, la distinción entre el ensamblaje de novo y el ensamblaje guiado por referencia, y los conceptos de contigs y scaffolds. Es un tema metodológico centrado en el paso de reconstrucción computacional y no aborda protocolos de laboratorio ni uso clínico.

Core questions

¿Por qué las lecturas de secuenciación deben ensamblarse en lugar de leerse directamente como cromosomas completos?
¿En qué se diferencian los enfoques de superposición-disposición-consenso y de grafo de De Bruijn?
¿Qué limita la completitud del ensamblaje y cómo influyen las repeticiones y la longitud de lectura?

Key concepts

Ensamblaje por superposición-disposición-consenso
Ensamblaje por grafo de De Bruijn
k-mers
Contigs y scaffolds
Ensamblaje de novo versus ensamblaje guiado por referencia
Resolución de repeticiones
Contigüidad del ensamblaje (p. ej., N50)

Mechanisms

Los algoritmos de ensamblaje reconstruyen un genoma explotando las superposiciones entre las lecturas. Los métodos de superposición-disposición-consenso (overlap-layout-consensus) calculan superposiciones por pares entre lecturas, las organizan en una disposición y derivan una secuencia de consenso; este enfoque se adaptaba a lecturas más largas y sustentó los primeros ensamblajes de genomas completos por escopeta (whole-genome shotgun). Los métodos de grafo de De Bruijn, en cambio, dividen las lecturas en subsecuencias de longitud fija (k-mers) y representan el genoma como rutas a través de un grafo de k-mers superpuestos, lo que se escala eficientemente a las grandes cantidades de lecturas cortas producidas por la secuenciación de alto rendimiento. Las regiones repetitivas más largas que la longitud de lectura crean ambigüedades que fragmentan los ensamblajes, por lo que se utilizan lecturas más largas e información de pares para resolverlas y vincular los contigs en scaffolds.

Clinical relevance

El ensamblaje genómico es el fundamento computacional que transforma los datos de secuenciación brutos en las secuencias contiguas utilizadas para construir genomas de referencia y para estudiar organismos previamente no caracterizados. Esta entrada es material de referencia y educativo que describe cómo funciona el ensamblaje y no es una guía para ningún procedimiento clínico o diagnóstico.

Evidence & guidelines

La literatura metodológica es primaria y basada en revisiones, más que en guías: Idury y Waterman (1995) introdujeron una formulación de grafos que anticipaba el ensamblaje de De Bruijn, Zerbino y Birney (2008) establecieron el ensamblaje de grafos de De Bruijn para lecturas cortas con Velvet, y el ensamblaje de genoma completo por escopeta (whole-genome shotgun) del genoma humano (Venter et al., 2001) ejemplifica el paradigma de superposición-disposición-consenso a gran escala.

History

Los primeros ensambladores utilizaron métodos de superposición-disposición-consenso bien adaptados a las lecturas relativamente largas de la secuenciación Sanger, como en el ensamblaje de genoma completo por escopeta del genoma humano en 2001. El cambio a la secuenciación de alto rendimiento de lectura corta hizo que los métodos de grafo de De Bruijn, anticipados por formulaciones de grafos de mediados de los años 90 y materializados en herramientas como Velvet (2008), se convirtieran en el paradigma dominante, mientras que el posterior retorno de las lecturas largas renovó el interés en los enfoques basados en superposiciones para resolver repeticiones.

Key figures

Michael Waterman
Daniel Zerbino
Ewan Birney
Eugene Myers

Seminal works

idury-1995
zerbino-2008
venter-2001-asm

Frequently asked questions

¿Cuál es la diferencia entre el ensamblaje de novo y el ensamblaje guiado por referencia?: El ensamblaje de novo reconstruye un genoma a partir de las lecturas únicamente, sin utilizar una secuencia previa, mientras que el ensamblaje guiado por referencia alinea o construye scaffolds a partir de las lecturas contra un genoma de referencia existente para ayudar en la reconstrucción.
¿Por qué las regiones repetitivas son difíciles de ensamblar?: Cuando una repetición es más larga que las lecturas que la abarcan, el algoritmo no puede determinar de qué copia proviene una lectura, lo que crea rutas ambiguas que fragmentan el ensamblaje en fragmentos más cortos; las lecturas más largas ayudan a resolver estas repeticiones.