ScholarGate
Assistente

Algoritmos e Métodos de Montagem de Genomas

A montagem de genomas é o problema computacional de reconstruir um genoma a partir das muitas leituras curtas ou longas sobrepostas produzidas pelo sequenciamento, uma vez que nenhuma tecnologia atual lê um cromossomo inteiro de ponta a ponta. Os algoritmos que o resolvem determinam quão completa e precisamente um genoma pode ser recuperado a partir de dados de sequência brutos.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A montagem de genomas é a reconstrução algorítmica da sequência de um genoma pela detecção de sobreposições entre as leituras de sequenciamento e sua fusão em sequências contíguas mais longas (contigs), que podem então ser ordenadas e orientadas em scaffolds, seja sem (de novo) ou com (guiada por referência) uma referência existente.

Scope

A entrada abrange os dois paradigmas algorítmicos dominantes, o consenso de sobreposição-layout e o grafo de De Bruijn, a distinção entre montagem de novo e montagem guiada por referência, e os conceitos de contigs e scaffolds. É um tópico metodológico focado na etapa de reconstrução computacional e não aborda protocolos de laboratório ou uso clínico.

Core questions

  • Por que as leituras de sequenciamento devem ser montadas em vez de lidas diretamente como cromossomos inteiros?
  • Como as abordagens de consenso de sobreposição-layout e de grafo de De Bruijn diferem?
  • O que limita a completude da montagem e como as repetições e o comprimento da leitura importam?

Key concepts

  • Montagem por consenso de sobreposição-layout
  • Montagem por grafo de De Bruijn
  • k-mers
  • Contigs e scaffolds
  • Montagem de novo versus guiada por referência
  • Resolução de repetições
  • Contiguidade da montagem (por exemplo, N50)

Mechanisms

Os algoritmos de montagem reconstroem um genoma explorando as sobreposições entre as leituras. Os métodos de consenso de sobreposição-layout calculam sobreposições pareadas entre as leituras, as organizam em um layout e derivam uma sequência de consenso; essa abordagem era adequada para leituras mais longas e sustentou as primeiras montagens de genomas completos por shotgun. Os métodos de grafo de De Bruijn, em vez disso, dividem as leituras em subsequências de comprimento fixo (k-mers) e representam o genoma como caminhos através de um grafo de k-mers sobrepostos, o que se escala eficientemente para o grande número de leituras curtas produzidas pelo sequenciamento de alto rendimento. Regiões repetitivas mais longas que o comprimento da leitura criam ambiguidades que fragmentam as montagens, então leituras mais longas e informações pareadas são usadas para resolvê-las e para ligar contigs em scaffolds.

Clinical relevance

A montagem de genomas é a base computacional que transforma dados brutos de sequenciamento em sequências contíguas usadas para construir genomas de referência e para estudar organismos previamente não caracterizados. Esta entrada é material de referência e educacional que descreve como a montagem funciona e não é uma orientação para qualquer procedimento clínico ou diagnóstico.

Evidence & guidelines

A literatura metodológica é primária e baseada em revisões, em vez de baseada em diretrizes: Idury e Waterman (1995) introduziram uma formulação de grafo que prenunciava a montagem de De Bruijn, Zerbino e Birney (2008) estabeleceram a montagem de grafo de De Bruijn para leituras curtas com Velvet, e a montagem de genoma completo por shotgun do genoma humano (Venter et al., 2001) exemplifica o paradigma de consenso de sobreposição-layout em escala.

History

Os primeiros montadores usaram métodos de consenso de sobreposição-layout bem adequados às leituras relativamente longas do sequenciamento de Sanger, como na montagem de genoma completo por shotgun do genoma humano em 2001. A mudança para o sequenciamento de alto rendimento de leituras curtas tornou os métodos de grafo de De Bruijn, antecipados por formulações de grafo de meados da década de 1990 e realizados em ferramentas como Velvet (2008), o paradigma dominante, enquanto o retorno posterior de leituras longas renovou o interesse em abordagens baseadas em sobreposição para resolver repetições.

Key figures

  • Michael Waterman
  • Daniel Zerbino
  • Ewan Birney
  • Eugene Myers

Related topics

Seminal works

  • idury-1995
  • zerbino-2008
  • venter-2001-asm

Frequently asked questions

Qual a diferença entre montagem de novo e montagem guiada por referência?
A montagem de novo reconstrói um genoma apenas a partir de leituras, sem usar uma sequência prévia, enquanto a montagem guiada por referência alinha ou organiza as leituras contra um genoma de referência existente para auxiliar na reconstrução.
Por que as regiões repetitivas são difíceis de montar?
Quando uma repetição é mais longa do que as leituras que a abrangem, o algoritmo não consegue determinar de qual cópia uma leitura veio, criando caminhos ambíguos que quebram a montagem em fragmentos mais curtos; leituras mais longas ajudam a resolver essas repetições.

Methods for this concept

Related concepts