Секвенирование, сборка и эталонные стандарты генома
Эта область охватывает методы считывания порядка нуклеотидов в геноме, реконструкции полученных фрагментов в более длинные непрерывные последовательности, а также создания и поддержания курируемых эталонных геномов, что позволяет выравнивать и интерпретировать новые данные в соответствии с общим стандартом. В совокупности эти этапы формируют техническую основу, на которой базируется почти вся геномика.
Definition
Секвенирование генома — это определение порядка нуклеотидов ДНК организма; сборка — это вычислительная реконструкция перекрывающихся последовательностей прочтений в более длинные непрерывные последовательности; а эталонные стандарты — это курируемые, версионированные сборки генома и аннотации, по которым выравниваются и сравниваются новые данные секвенирования.
Scope
Эта область охватывает химические методы секвенирования от дидезокси-секвенирования по Сэнгеру до высокопроизводительных платформ коротких и длинных прочтений, вычислительную сборку прочтений в контиги и скаффолды, создание и аннотирование эталонных геномов, таких как GRCh38 и сборка от теломеры до теломеры, а также этапы контроля качества и коррекции ошибок, которые определяют надежность данных. Она рассматривает эти аспекты как методологические и инфраструктурные темы, а не как клинические процедуры.
Sub-topics
Core questions
- Как определяется порядок нуклеотидов в геноме и как развивались химические методы секвенирования?
- Как короткие или длинные последовательности прочтений реконструируются в полный геном?
- Что делает сборку генома пригодным референсом и как она версионируется и аннотируется?
- Как обнаруживаются, количественно оцениваются и исправляются ошибки секвенирования, чтобы последующие анализы были достоверными?
Key concepts
- Прочтение, контиг и скаффолд
- Покрытие и глубина секвенирования
- Секвенирование коротких прочтений против секвенирования длинных прочтений
- De novo сборка против выравнивания по референсу
- Референсный геном и сборка генома (например, GRCh38)
- Аннотация генома
- Оценка качества по основаниям (Phred)
Mechanisms
Платформы секвенирования преобразуют физическую ДНК в машиночитаемые вызовы оснований, каждый из которых сопровождается оценкой качества. Поскольку большинство платформ считывают только фрагменты, значительно более короткие, чем хромосома, фрагменты должны быть собраны: de novo сборка реконструирует геном из перекрытий прочтений (исторически — перекрытие-разметка-консенсус, теперь часто — графы де Брёйна для коротких прочтений), в то время как анализ с использованием референса выравнивает прочтения по существующей сборке. Эталонный геном — это курируемая консенсусная последовательность, версионированная в виде последовательных сборок и снабженная аннотациями, которая обеспечивает систему координат для данной области. Контроль качества и коррекция ошибок охватывают весь конвейер, оценивая точность каждого основания и удаляя или исправляя артефакты до вызова вариантов.
Clinical relevance
Надежные стандарты секвенирования, сборки и референсов лежат в основе клинической и исследовательской геномики, поскольку интерпретация вариантов зависит от точных прочтений, выровненных по хорошо охарактеризованному референсу. Эта область описывает инфраструктуру, которая генерирует геномные данные; это справочный и образовательный материал, а не основа для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Методы, описанные здесь, документированы в знаковых первичных исследованиях и отчетах консорциумов, а не в клинических рекомендациях: метод обрыва цепи Сэнгера (1977), черновой вариант Проекта генома человека (2001), обзоры платформ нового поколения (Metzker, 2010) и полный геном человека от теломеры до теломеры (Nurk et al., 2022) прослеживают траекторию развития этой области.
History
Секвенирование ДНК началось с химического метода обрыва цепи Сэнгера в 1977 году, что позволило прочитать первые геномы и стало основой для чернового варианта Проекта генома человека в 2001 году. Последующий рост высокопроизводительных (нового поколения) платформ значительно снизил затраты, а технологии длинных прочтений позднее позволили разрешить повторяющиеся области, что привело к созданию первого полного, безразрывного генома человека в 2022 году.
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- В чем разница между секвенированием и сборкой?
- Секвенирование считывает порядок нуклеотидов в фрагментах ДНК, тогда как сборка — это вычислительный этап, который реконструирует эти фрагменты в более длинные, непрерывные последовательности, такие как контиги, скаффолды или целые хромосомы.
- Почему в этой области необходим референсный геном?
- Референсный геном обеспечивает общую, версионированную систему координат, чтобы новые данные секвенирования от разных индивидуумов и лабораторий могли быть выровнены, сравнены и интерпретированы последовательно.