Стандарты и аннотация референсного генома
Референсный геном представляет собой курируемую, репрезентативную консенсусную последовательность для вида, которая служит общей системой координат, относительно которой выравниваются и интерпретируются новые данные секвенирования. Поддержание его в виде версионированных сборок и наложение на него биологической аннотации делает геномные результаты сопоставимыми между исследованиями, лабораториями и во времени.
Definition
Референсный геном — это курируемая консенсусная нуклеотидная последовательность, выбранная для представления генома вида, поддерживаемая в виде версионированных сборок и аннотированная с указанием расположения генов и других функциональных элементов, которая обеспечивает стабильную систему координат для выравнивания и интерпретации геномных данных.
Scope
Статья охватывает, что такое референсная сборка, как она версионируется в последовательные сборки (такие как человеческая сборка GRCh38 и сборка «от теломеры до теломеры»), роль аннотации в маркировке генов и функциональных особенностей, а также переход к более полным и репрезентативным референсам. Это справочная и инфраструктурная тема, а не клиническое руководство.
Core questions
- Что такое референсный геном и почему область стандартизируется на одном?
- Как и почему референсные сборки версионируются в последовательные сборки?
- Что добавляет аннотация генома к референсной последовательности?
Key concepts
- Референсная сборка (консенсусная последовательность)
- Сборка генома и версионирование (например, GRCh38)
- Аннотация генома
- Система координат для выравнивания
- Сборка «от теломеры до теломеры» (без пробелов)
- Пробелы в сборке и завершение
Mechanisms
Референсный геном собирается из высококачественных данных секвенирования в консенсус, который представляет вид, а не отдельного индивидуума, затем выпускается в виде версионированной сборки, чтобы геномные координаты оставались стабильными и цитируемыми. Аннотация накладывает на последовательность позиции генов, транскриптов, а также регуляторных и повторяющихся элементов, превращая необработанные координаты в биологически интерпретируемые карты. Последовательные сборки включают исправления, заполняют пробелы и улучшают репрезентацию; референс человека прогрессировал от черновой версии 2001 года и завершенной эухроматической последовательности 2004 года до сборки GRCh38 и, в конечном итоге, до полной сборки «от теломеры до теломеры», которая разрешила ранее недоступные регионы.
Clinical relevance
Поскольку выявление и интерпретация вариантов выражаются в референсных координатах, выбор и версия референсного генома напрямую влияют на то, как сообщаются и сравниваются геномные находки. Эта статья описывает референсную инфраструктуру как образовательный материал и не является основанием для индивидуальных клинических или диагностических решений.
Evidence & guidelines
Референс документируется посредством первичных отчетов консорциумов и оценок сборок, а не клинических рекомендаций: первоначальный черновик (2001) и завершенная эухроматическая последовательность (2004), оценка сборки GRCh38 (Schneider et al., 2017) и полный геном человека «от теломеры до теломеры» (Nurk et al., 2022) определяют текущий стандарт и его траекторию.
History
Референсный геном человека начался с черновой последовательности 2001 года и завершенной эухроматической последовательности 2004 года, затем поддерживался и улучшался Консорциумом по референсному геному в ходе последовательных сборок, кульминацией которых стала GRCh38. Постоянные пробелы в повторяющихся и центромерных регионах были окончательно закрыты консорциумом «от теломеры до теломеры», который в 2022 году создал первый полный, беспробельный геном человека и изменил представление о том, каким может быть референсный стандарт.
Key figures
- Deanna Church
- Valerie Schneider
- Adam Phillippy
- Karen Miga
Related topics
Seminal works
- ihgsc-2004
- schneider-2017
- nurk-2022-ref
Frequently asked questions
- Почему у референсного генома есть разные версии или сборки?
- По мере улучшения секвенирования и сборки референс пересматривается для исправления ошибок, закрытия пробелов и лучшего представления вида; каждому выпуску присваивается версия сборки, чтобы геномные координаты оставались стабильными, а результаты — сопоставимыми.
- Что такое аннотация генома?
- Аннотация — это процесс маркировки расположения генов, транскриптов, регуляторных элементов и других особенностей на референсной последовательности, превращающий строку нуклеотидов в биологически интерпретируемую карту.