Нуклеотидное разнообразие и классификация вариантов
Нуклеотидное разнообразие измеряет, насколько в среднем различаются две случайно выбранные последовательности из популяции, в то время как классификация вариантов организует множество видов различий в ДНК — однонуклеотидные замены, небольшие вставки и делеции, а также более крупные структурные изменения — в согласованный словарь. Вместе они описывают как объем вариаций, которые несет геном, так и то, как эти вариации выглядят.
Definition
Нуклеотидное разнообразие (обычно обозначаемое как пи) — это среднее число нуклеотидных различий на сайт между двумя последовательностями, отобранными из популяции; классификация вариантов — это систематическая категоризация наблюдаемых различий в последовательностях (например, однонуклеотидные варианты, индели, структурные варианты).
Scope
Статья охватывает стандартные сводные меры внутрипопуляционной изменчивости последовательностей, особенно нуклеотидное разнообразие и количество сегрегирующих сайтов, а также классификацию типов вариантов по размеру и по предполагаемому влиянию на последовательность. Она рассматривает их как описательные и методологические концепции; она не приписывает клинической значимости конкретным вариантам.
Core questions
- Как суммируется объем вариаций последовательности в образце?
- Чем отличаются нуклеотидное разнообразие и количество сегрегирующих сайтов как оценки?
- Каковы основные классы генетических вариантов по размеру и типу?
- Как варианты представляются и обмениваются в стандартном формате файла?
Key concepts
- Нуклеотидное разнообразие (пи)
- Сегрегирующие сайты и тета Уоттерсона
- Однонуклеотидный вариант (SNV/SNP)
- Вставка-делеция (индел)
- Структурный вариант
- Референсные и альтернативные аллели
- Формат вызова вариантов (VCF)
Key theories
- Модель бесконечных сайтов и тета
- Согласно предположению о бесконечных сайтах, каждая новая мутация происходит в ранее не мутировавшем сайте, поэтому параметр популяционной мутации тета может быть оценен либо по количеству сегрегирующих сайтов (оценка Уоттерсона), либо по средним попарным различиям (нуклеотидное разнообразие); систематическое расхождение между ними информативно относительно отклонений от нейтральности.
Mechanisms
Вариации сначала обнаруживаются путем выравнивания секвенированных прочтений с референсным геномом и выявления различающихся позиций; затем различия классифицируются по размеру и форме. Сводные статистические данные конденсируют это в меры на популяционном уровне: количество сегрегирующих сайтов лежит в основе оценки тета Уоттерсона, в то время как средние попарные различия определяют нуклеотидное разнообразие. Поскольку оба показателя оценивают один и тот же параметр в рамках нейтральной модели постоянного размера, их различие (формализованное Таджимой) указывает на демографические изменения или отбор. Стандартизированное представление в формате Variant Call Format позволяет хранить, обмениваться и сравнивать варианты между исследованиями.
Clinical relevance
Согласованный словарь вариантов и надежные оценки разнообразия являются необходимыми условиями для интерпретации геномных данных в здравоохранении, поскольку те же описательные категории используются при скрининге секвенированного генома на наличие клинически значимых вариантов. Эта статья объясняет, как описываются и подсчитываются варианты, и не является основой для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Основополагающие оценки разнообразия последовательностей были установлены Уоттерсоном и Таджимой, в то время как крупные исследования, такие как ранняя карта SNP человека и референсный проект «1000 геномов», обеспечивают эмпирический масштаб изменчивости человека. Формат Variant Call Format и его инструментарий являются де-факто стандартом сообщества для представления классифицированных вариантов.
History
Ранняя молекулярная популяционная генетика количественно оценивала вариации с помощью исследований аллозимов и сайтов рестрикции, затем с помощью секвенирования ДНК. Работы Уоттерсона 1975 года и Таджимы 1989 года дали оценки, используемые до сих пор, а карта SNP человека 2001 года и последующие консорциумы по секвенированию превратили каталогизацию вариантов в общегеномное предприятие, сопровождаемое стандартными форматами, такими как VCF, для представления полученных вариантов.
Key figures
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
Related topics
Seminal works
- watterson-1975
- tajima-1989
- snp-map-2001
Frequently asked questions
- В чем разница между нуклеотидным разнообразием и количеством сегрегирующих сайтов?
- Количество сегрегирующих сайтов подсчитывает, сколько позиций варьируется в образце, в то время как нуклеотидное разнообразие усредняет различия между парами последовательностей; оба показателя оценивают один и тот же основной параметр в рамках простой нейтральной модели, и их расхождение само по себе информативно.
- Является ли SNP тем же самым, что и мутация?
- SNP — это однонуклеотидный вариант, наблюдаемый в популяции; он возникает из точечной мутации, но термин подчеркивает, что вариант присутствует с заметной частотой, а не является недавно возникшим изменением у одного индивидуума.