Algoritmos e Métodos de Montagem de Genomas
A montagem de genomas é o problema computacional de reconstruir um genoma a partir das muitas leituras curtas ou longas sobrepostas produzidas pelo sequenciamento, uma vez que nenhuma tecnologia atual lê um cromossomo inteiro de ponta a ponta. Os algoritmos que o resolvem determinam quão completa e precisamente um genoma pode ser recuperado a partir de dados de sequência brutos.
Definition
A montagem de genomas é a reconstrução algorítmica da sequência de um genoma pela detecção de sobreposições entre as leituras de sequenciamento e sua fusão em sequências contíguas mais longas (contigs), que podem então ser ordenadas e orientadas em scaffolds, seja sem (de novo) ou com (guiada por referência) uma referência existente.
Scope
A entrada abrange os dois paradigmas algorítmicos dominantes, o consenso de sobreposição-layout e o grafo de De Bruijn, a distinção entre montagem de novo e montagem guiada por referência, e os conceitos de contigs e scaffolds. É um tópico metodológico focado na etapa de reconstrução computacional e não aborda protocolos de laboratório ou uso clínico.
Core questions
- Por que as leituras de sequenciamento devem ser montadas em vez de lidas diretamente como cromossomos inteiros?
- Como as abordagens de consenso de sobreposição-layout e de grafo de De Bruijn diferem?
- O que limita a completude da montagem e como as repetições e o comprimento da leitura importam?
Key concepts
- Montagem por consenso de sobreposição-layout
- Montagem por grafo de De Bruijn
- k-mers
- Contigs e scaffolds
- Montagem de novo versus guiada por referência
- Resolução de repetições
- Contiguidade da montagem (por exemplo, N50)
Mechanisms
Os algoritmos de montagem reconstroem um genoma explorando as sobreposições entre as leituras. Os métodos de consenso de sobreposição-layout calculam sobreposições pareadas entre as leituras, as organizam em um layout e derivam uma sequência de consenso; essa abordagem era adequada para leituras mais longas e sustentou as primeiras montagens de genomas completos por shotgun. Os métodos de grafo de De Bruijn, em vez disso, dividem as leituras em subsequências de comprimento fixo (k-mers) e representam o genoma como caminhos através de um grafo de k-mers sobrepostos, o que se escala eficientemente para o grande número de leituras curtas produzidas pelo sequenciamento de alto rendimento. Regiões repetitivas mais longas que o comprimento da leitura criam ambiguidades que fragmentam as montagens, então leituras mais longas e informações pareadas são usadas para resolvê-las e para ligar contigs em scaffolds.
Clinical relevance
A montagem de genomas é a base computacional que transforma dados brutos de sequenciamento em sequências contíguas usadas para construir genomas de referência e para estudar organismos previamente não caracterizados. Esta entrada é material de referência e educacional que descreve como a montagem funciona e não é uma orientação para qualquer procedimento clínico ou diagnóstico.
Evidence & guidelines
A literatura metodológica é primária e baseada em revisões, em vez de baseada em diretrizes: Idury e Waterman (1995) introduziram uma formulação de grafo que prenunciava a montagem de De Bruijn, Zerbino e Birney (2008) estabeleceram a montagem de grafo de De Bruijn para leituras curtas com Velvet, e a montagem de genoma completo por shotgun do genoma humano (Venter et al., 2001) exemplifica o paradigma de consenso de sobreposição-layout em escala.
History
Os primeiros montadores usaram métodos de consenso de sobreposição-layout bem adequados às leituras relativamente longas do sequenciamento de Sanger, como na montagem de genoma completo por shotgun do genoma humano em 2001. A mudança para o sequenciamento de alto rendimento de leituras curtas tornou os métodos de grafo de De Bruijn, antecipados por formulações de grafo de meados da década de 1990 e realizados em ferramentas como Velvet (2008), o paradigma dominante, enquanto o retorno posterior de leituras longas renovou o interesse em abordagens baseadas em sobreposição para resolver repetições.
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- Qual a diferença entre montagem de novo e montagem guiada por referência?
- A montagem de novo reconstrói um genoma apenas a partir de leituras, sem usar uma sequência prévia, enquanto a montagem guiada por referência alinha ou organiza as leituras contra um genoma de referência existente para auxiliar na reconstrução.
- Por que as regiões repetitivas são difíceis de montar?
- Quando uma repetição é mais longa do que as leituras que a abrangem, o algoritmo não consegue determinar de qual cópia uma leitura veio, criando caminhos ambíguos que quebram a montagem em fragmentos mais curtos; leituras mais longas ajudam a resolver essas repetições.