Алгоритмы и методы сборки генома
Сборка генома — это вычислительная задача по реконструкции генома из множества перекрывающихся коротких или длинных прочтений, полученных в результате секвенирования, поскольку ни одна из современных технологий не позволяет прочитать целую хромосому от начала до конца. Алгоритмы, решающие эту задачу, определяют, насколько полно и точно геном может быть восстановлен из необработанных данных секвенирования.
Definition
Сборка генома — это алгоритмическая реконструкция последовательности генома путем обнаружения перекрытий между прочтениями секвенирования и их слияния в более длинные непрерывные последовательности (контиги), которые затем могут быть упорядочены и ориентированы в скаффолды, либо без (de novo), либо с (reference-guided) использованием существующего референса.
Scope
Статья охватывает две доминирующие алгоритмические парадигмы: перекрытие-разметка-консенсус (overlap-layout-consensus) и граф де Брёйна, а также различие между сборкой de novo и сборкой с использованием референса, а также понятия контигов и скаффолдов. Это методологическая тема, сфокусированная на этапе вычислительной реконструкции, и она не затрагивает лабораторные протоколы или клиническое применение.
Core questions
- Почему прочтения секвенирования необходимо собирать, а не читать напрямую как целые хромосомы?
- В чем различия между подходами перекрытия-разметки-консенсуса и графа де Брёйна?
- Что ограничивает полноту сборки, и какое значение имеют повторы и длина прочтения?
Key concepts
- Сборка методом перекрытия-разметки-консенсуса
- Сборка графа де Брёйна
- k-меры
- Контиги и скаффолды
- Сборка de novo против сборки с использованием референса
- Разрешение повторов
- Непрерывность сборки (например, N50)
Mechanisms
Алгоритмы сборки реконструируют геном, используя перекрытия между прочтениями. Методы перекрытия-разметки-консенсуса вычисляют попарные перекрытия между прочтениями, располагают их в разметку и выводят консенсусную последовательность; этот подход подходил для более длинных прочтений и лежал в основе ранних сборок генома методом дробовика. Методы графа де Брёйна вместо этого разбивают прочтения на подпоследовательности фиксированной длины (k-меры) и представляют геном как пути через граф перекрывающихся k-меров, что эффективно масштабируется для очень большого количества коротких прочтений, полученных высокопроизводительным секвенированием. Повторяющиеся регионы, длина которых превышает длину прочтения, создают неоднозначности, которые фрагментируют сборки, поэтому более длинные прочтения и парная информация используются для их разрешения и связывания контигов в скаффолды.
Clinical relevance
Сборка генома является вычислительной основой, которая превращает необработанные данные секвенирования в непрерывные последовательности, используемые для построения референсных геномов и изучения ранее нехарактеризованных организмов. Эта статья является справочным и образовательным материалом, описывающим принципы работы сборки, и не является руководством для каких-либо клинических или диагностических процедур.
Evidence & guidelines
Методологическая литература является первичной и обзорной, а не основанной на рекомендациях: Идури и Уотерман (Idury and Waterman, 1995) представили графическую формулировку, предвосхитившую сборку де Брёйна, Зербино и Бирни (Zerbino and Birney, 2008) установили сборку графа де Брёйна для коротких прочтений с помощью Velvet, а сборка генома человека методом дробовика (Venter et al., 2001) является примером парадигмы перекрытия-разметки-консенсуса в масштабе.
History
Ранние ассемблеры использовали методы перекрытия-разметки-консенсуса, хорошо подходящие для относительно длинных прочтений секвенирования по Сэнгеру, как, например, при сборке генома человека методом дробовика в 2001 году. Переход к высокопроизводительному секвенированию коротких прочтений сделал методы графа де Брёйна, предвосхищенные графическими формулировками середины 1990-х годов и реализованные в таких инструментах, как Velvet (2008), доминирующей парадигмой, в то время как последующее возвращение длинных прочтений возобновило интерес к подходам, основанным на перекрытиях, для разрешения повторов.
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- В чем разница между сборкой de novo и сборкой с использованием референса?
- Сборка de novo реконструирует геном только из прочтений, без использования предварительной последовательности, тогда как сборка с использованием референса выравнивает или объединяет прочтения с существующим референсным геномом для помощи в реконструкции.
- Почему повторяющиеся регионы трудно собирать?
- Когда повтор длиннее прочтений, охватывающих его, алгоритм не может определить, из какой копии пришло прочтение, создавая неоднозначные пути, которые разбивают сборку на более короткие фрагменты; более длинные прочтения помогают разрешить эти повторы.