Sequenciamento, Montagem e Padrões de Referência do Genoma
Esta área aborda como a ordem dos nucleotídeos em um genoma é lida, como os fragmentos resultantes são reconstruídos em sequências contíguas mais longas e como os genomas de referência curados são construídos e mantidos para que novos dados possam ser alinhados e interpretados em relação a um padrão compartilhado. Juntas, essas etapas formam a base técnica sobre a qual se apoia quase toda a genômica.
Definition
O sequenciamento do genoma é a determinação da ordem dos nucleotídeos do DNA de um organismo; a montagem é a reconstrução computacional de leituras de sequência sobrepostas em sequências contíguas mais longas; e os padrões de referência são as montagens e anotações genômicas curadas e versionadas contra as quais novos dados de sequência são alinhados e comparados.
Scope
A área abrange as químicas de sequenciamento, desde o sequenciamento dideoxi de Sanger até plataformas de alto rendimento de leitura curta e leitura longa, a montagem computacional de leituras em contigs e scaffolds, a construção e anotação de genomas de referência como o GRCh38 e a montagem telômero a telômero, e as etapas de controle de qualidade e correção de erros que governam a confiabilidade dos dados. Ela trata esses tópicos como metodológicos e infraestruturais, e não como procedimentos clínicos.
Sub-topics
Core questions
- Como a ordem dos nucleotídeos de um genoma é determinada e como as químicas de sequenciamento evoluíram?
- Como as leituras de sequência curtas ou longas são reconstruídas em um genoma completo?
- O que torna uma montagem de genoma uma referência utilizável e como ela é versionada e anotada?
- Como os erros de sequenciamento são detectados, quantificados e corrigidos para que as análises subsequentes sejam confiáveis?
Key concepts
- Leitura, contig e scaffold
- Cobertura e profundidade de sequenciamento
- Sequenciamento de leitura curta versus leitura longa
- Montagem de novo versus alinhamento guiado por referência
- Genoma de referência e construção do genoma (por exemplo, GRCh38)
- Anotação do genoma
- Pontuação de qualidade por base (Phred)
Mechanisms
As plataformas de sequenciamento convertem o DNA físico em chamadas de base legíveis por máquina, cada uma acompanhada por uma estimativa de qualidade. Como a maioria das plataformas lê apenas fragmentos muito mais curtos do que um cromossomo, os fragmentos devem ser montados: a montagem de novo reconstrói o genoma a partir de sobreposições de leitura (historicamente sobreposição-layout-consenso, agora frequentemente grafos de de Bruijn para leituras curtas), enquanto a análise guiada por referência alinha as leituras a uma montagem existente. Um genoma de referência é uma sequência de consenso curada, versionada como construções sucessivas e com camadas de anotação, que fornece o sistema de coordenadas para o campo. O controle de qualidade e a correção de erros abrangem todo o pipeline, estimando a precisão por base e removendo ou corrigindo artefatos antes que as variantes sejam chamadas.
Clinical relevance
Sequenciamento, montagem e padrões de referência confiáveis sustentam a genômica clínica e de pesquisa, uma vez que a interpretação de variantes depende de leituras precisas alinhadas a uma referência bem caracterizada. Esta área descreve a infraestrutura que gera evidências genômicas; é material de referência e educacional e não uma base para decisões individuais de diagnóstico ou tratamento.
Evidence & guidelines
Os métodos aqui são documentados por meio de estudos primários marcantes e relatórios de consórcios, em vez de diretrizes clínicas: o método de terminação de cadeia de Sanger (1977), o rascunho do Projeto Genoma Humano (2001), revisões de plataformas de próxima geração (Metzker, 2010) e o genoma humano completo telômero a telômero (Nurk et al., 2022) traçam a trajetória do campo.
History
O sequenciamento de DNA começou com a química de terminação de cadeia de Sanger em 1977, que permitiu a leitura dos primeiros genomas e impulsionou a sequência de rascunho do Projeto Genoma Humano em 2001. A ascensão subsequente das plataformas de alto rendimento (próxima geração) reduziu os custos em ordens de magnitude, e as tecnologias de leitura longa posteriormente resolveram regiões repetitivas, culminando no primeiro genoma humano completo e sem lacunas em 2022.
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- Qual a diferença entre sequenciamento e montagem?
- O sequenciamento lê a ordem dos nucleotídeos em fragmentos de DNA, enquanto a montagem é a etapa computacional que reconstrói esses fragmentos em sequências contíguas mais longas, como contigs, scaffolds ou cromossomos inteiros.
- Por que o campo precisa de um genoma de referência?
- Um genoma de referência fornece um sistema de coordenadas compartilhado e versionado para que novos dados de sequência de diferentes indivíduos e laboratórios possam ser alinhados, comparados e interpretados de forma consistente.