¿Cuál es la diferencia entre secuenciación y ensamblaje?

La secuenciación lee el orden de los nucleótidos en fragmentos de ADN, mientras que el ensamblaje es el paso computacional que reconstruye esos fragmentos en secuencias contiguas más largas, como contigs, scaffolds o cromosomas completos.

¿Por qué el campo necesita un genoma de referencia?

Un genoma de referencia proporciona un sistema de coordenadas compartido y versionado para que los nuevos datos de secuencia de diferentes individuos y laboratorios puedan alinearse, compararse e interpretarse de manera consistente.

Secuenciación, Ensamblaje y Estándares de Referencia del Genoma

Esta área cubre cómo se lee el orden de los nucleótidos en un genoma, cómo se reconstruyen los fragmentos resultantes en secuencias contiguas más largas y cómo se construyen y mantienen genomas de referencia curados para que los nuevos datos puedan alinearse e interpretarse contra un estándar compartido. Juntos, estos pasos forman la base técnica sobre la que se asienta casi toda la genómica.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La secuenciación del genoma es la determinación del orden de los nucleótidos del ADN de un organismo; el ensamblaje es la reconstrucción computacional de lecturas de secuencia superpuestas en secuencias contiguas más largas; y los estándares de referencia son los ensamblajes y anotaciones del genoma curados y versionados contra los cuales se alinean y comparan los nuevos datos de secuencia.

Scope

El área abarca desde las químicas de secuenciación de Sanger por dideoxinucleótidos hasta las plataformas de alto rendimiento de lectura corta y lectura larga, el ensamblaje computacional de lecturas en contigs y scaffolds, la construcción y anotación de genomas de referencia como GRCh38 y el ensamblaje telómero a telómero, y los pasos de control de calidad y corrección de errores que rigen la fiabilidad de los datos. Trata estos temas como metodológicos e infraestructurales, no como procedimientos clínicos.

Sub-topics

Core questions

¿Cómo se determina el orden de los nucleótidos de un genoma y cómo han evolucionado las químicas de secuenciación?
¿Cómo se reconstruyen las lecturas de secuencia cortas o largas en un genoma completo?
¿Qué hace que un ensamblaje de genoma sea una referencia utilizable y cómo se versiona y anota?
¿Cómo se detectan, cuantifican y corrigen los errores de secuenciación para que los análisis posteriores sean fiables?

Key concepts

Lectura, contig y scaffold
Cobertura y profundidad de secuenciación
Secuenciación de lectura corta versus lectura larga
Ensamblaje de novo versus alineamiento guiado por referencia
Genoma de referencia y construcción del genoma (p. ej., GRCh38)
Anotación del genoma
Puntuación de calidad por base (Phred)

Mechanisms

Las plataformas de secuenciación convierten el ADN físico en llamadas de bases legibles por máquina, cada una acompañada de una estimación de calidad. Dado que la mayoría de las plataformas leen solo fragmentos mucho más cortos que un cromosoma, los fragmentos deben ensamblarse: el ensamblaje de novo reconstruye el genoma a partir de las superposiciones de lectura (históricamente por solapamiento-diseño-consenso, ahora a menudo por grafos de De Bruijn para lecturas cortas), mientras que el análisis guiado por referencia alinea las lecturas con un ensamblaje existente. Un genoma de referencia es una secuencia de consenso curada, versionada como construcciones sucesivas y con capas de anotación, que proporciona el sistema de coordenadas para el campo. El control de calidad y la corrección de errores se sitúan a lo largo de todo el proceso, estimando la precisión por base y eliminando o corrigiendo artefactos antes de que se llamen las variantes.

Clinical relevance

La secuenciación, el ensamblaje y los estándares de referencia fiables sustentan la genómica clínica y de investigación, ya que la interpretación de variantes depende de lecturas precisas alineadas con una referencia bien caracterizada. Esta área describe la infraestructura que genera evidencia genómica; es material de referencia y educativo y no una base para decisiones individuales de diagnóstico o tratamiento.

Evidence & guidelines

Los métodos aquí se documentan a través de estudios primarios de referencia e informes de consorcios, más que por guías clínicas: el método de terminación de cadena de Sanger (1977), el borrador del Proyecto Genoma Humano (2001), revisiones de plataformas de próxima generación (Metzker, 2010), y el genoma humano completo de telómero a telómero (Nurk et al., 2022) trazan la trayectoria del campo.

History

La secuenciación de ADN comenzó con la química de terminación de cadena de Sanger en 1977, lo que permitió leer los primeros genomas e impulsó la secuencia borrador del Proyecto Genoma Humano en 2001. El posterior auge de las plataformas de alto rendimiento (de próxima generación) redujo los costos en órdenes de magnitud, y las tecnologías de lectura larga resolvieron más tarde las regiones repetitivas, culminando en el primer genoma humano completo y sin huecos en 2022.

Key figures

Frederick Sanger
Eric Lander
Michael Metzker
Sergey Koren
Adam Phillippy

Seminal works

sanger-1977
ihgsc-2001
metzker-2009
nurk-2022

Frequently asked questions

¿Cuál es la diferencia entre secuenciación y ensamblaje?: La secuenciación lee el orden de los nucleótidos en fragmentos de ADN, mientras que el ensamblaje es el paso computacional que reconstruye esos fragmentos en secuencias contiguas más largas, como contigs, scaffolds o cromosomas completos.
¿Por qué el campo necesita un genoma de referencia?: Un genoma de referencia proporciona un sistema de coordenadas compartido y versionado para que los nuevos datos de secuencia de diferentes individuos y laboratorios puedan alinearse, compararse e interpretarse de manera consistente.