ScholarGate
Ассистент

Алгоритмы и методы сборки генома

Сборка генома — это вычислительная задача по реконструкции генома из множества перекрывающихся коротких или длинных прочтений, полученных в результате секвенирования, поскольку ни одна из современных технологий не позволяет прочитать целую хромосому от начала до конца. Алгоритмы, решающие эту задачу, определяют, насколько полно и точно геном может быть восстановлен из необработанных данных секвенирования.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Сборка генома — это алгоритмическая реконструкция последовательности генома путем обнаружения перекрытий между прочтениями секвенирования и их слияния в более длинные непрерывные последовательности (контиги), которые затем могут быть упорядочены и ориентированы в скаффолды, либо без (de novo), либо с (reference-guided) использованием существующего референса.

Scope

Статья охватывает две доминирующие алгоритмические парадигмы: перекрытие-разметка-консенсус (overlap-layout-consensus) и граф де Брёйна, а также различие между сборкой de novo и сборкой с использованием референса, а также понятия контигов и скаффолдов. Это методологическая тема, сфокусированная на этапе вычислительной реконструкции, и она не затрагивает лабораторные протоколы или клиническое применение.

Core questions

  • Почему прочтения секвенирования необходимо собирать, а не читать напрямую как целые хромосомы?
  • В чем различия между подходами перекрытия-разметки-консенсуса и графа де Брёйна?
  • Что ограничивает полноту сборки, и какое значение имеют повторы и длина прочтения?

Key concepts

  • Сборка методом перекрытия-разметки-консенсуса
  • Сборка графа де Брёйна
  • k-меры
  • Контиги и скаффолды
  • Сборка de novo против сборки с использованием референса
  • Разрешение повторов
  • Непрерывность сборки (например, N50)

Mechanisms

Алгоритмы сборки реконструируют геном, используя перекрытия между прочтениями. Методы перекрытия-разметки-консенсуса вычисляют попарные перекрытия между прочтениями, располагают их в разметку и выводят консенсусную последовательность; этот подход подходил для более длинных прочтений и лежал в основе ранних сборок генома методом дробовика. Методы графа де Брёйна вместо этого разбивают прочтения на подпоследовательности фиксированной длины (k-меры) и представляют геном как пути через граф перекрывающихся k-меров, что эффективно масштабируется для очень большого количества коротких прочтений, полученных высокопроизводительным секвенированием. Повторяющиеся регионы, длина которых превышает длину прочтения, создают неоднозначности, которые фрагментируют сборки, поэтому более длинные прочтения и парная информация используются для их разрешения и связывания контигов в скаффолды.

Clinical relevance

Сборка генома является вычислительной основой, которая превращает необработанные данные секвенирования в непрерывные последовательности, используемые для построения референсных геномов и изучения ранее нехарактеризованных организмов. Эта статья является справочным и образовательным материалом, описывающим принципы работы сборки, и не является руководством для каких-либо клинических или диагностических процедур.

Evidence & guidelines

Методологическая литература является первичной и обзорной, а не основанной на рекомендациях: Идури и Уотерман (Idury and Waterman, 1995) представили графическую формулировку, предвосхитившую сборку де Брёйна, Зербино и Бирни (Zerbino and Birney, 2008) установили сборку графа де Брёйна для коротких прочтений с помощью Velvet, а сборка генома человека методом дробовика (Venter et al., 2001) является примером парадигмы перекрытия-разметки-консенсуса в масштабе.

History

Ранние ассемблеры использовали методы перекрытия-разметки-консенсуса, хорошо подходящие для относительно длинных прочтений секвенирования по Сэнгеру, как, например, при сборке генома человека методом дробовика в 2001 году. Переход к высокопроизводительному секвенированию коротких прочтений сделал методы графа де Брёйна, предвосхищенные графическими формулировками середины 1990-х годов и реализованные в таких инструментах, как Velvet (2008), доминирующей парадигмой, в то время как последующее возвращение длинных прочтений возобновило интерес к подходам, основанным на перекрытиях, для разрешения повторов.

Key figures

  • Michael Waterman
  • Daniel Zerbino
  • Ewan Birney
  • Eugene Myers

Related topics

Seminal works

  • idury-1995
  • zerbino-2008
  • venter-2001-asm

Frequently asked questions

В чем разница между сборкой de novo и сборкой с использованием референса?
Сборка de novo реконструирует геном только из прочтений, без использования предварительной последовательности, тогда как сборка с использованием референса выравнивает или объединяет прочтения с существующим референсным геномом для помощи в реконструкции.
Почему повторяющиеся регионы трудно собирать?
Когда повтор длиннее прочтений, охватывающих его, алгоритм не может определить, из какой копии пришло прочтение, создавая неоднозначные пути, которые разбивают сборку на более короткие фрагменты; более длинные прочтения помогают разрешить эти повторы.

Methods for this concept

Related concepts