Методы вывода примесей и происхождения
Методы вывода примесей и происхождения оценивают по генотипам индивидуума пропорции его генома, полученные от различных исходных популяций предков, и проверяют, обменивались ли популяции генами в прошлом. Они превращают закономерности совместного использования аллелей в количественные утверждения о происхождении и смешении популяций.
Definition
Вывод происхождения — это оценка исходного(ых) источника(ов) генома индивидуума по генетическим данным; вывод примесей конкретно оценивает пропорции, внесенные различными популяциями предков, и проверяет исторический поток генов между ними.
Scope
Статья охватывает кластеризацию на основе моделей и оценку пропорций происхождения, подходы к снижению размерности и формальные тесты на примеси, а также допущения, на которых основаны эти методы. Это методологическая тема; она описывает статистический вывод генетического происхождения и не делает никаких клинических или социальных заявлений о категориях происхождения.
Core questions
- Как оцениваются пропорции происхождения по данным генотипов?
- Чем отличаются подходы кластеризации на основе моделей и анализа главных компонент?
- Как формально проверяется прошлый поток генов между популяциями?
- Какие допущения и ограничения влияют на оценки происхождения?
Key concepts
- Пропорции происхождения
- Кластеризация на основе моделей (STRUCTURE/ADMIXTURE)
- Количество исходных популяций (K)
- Анализ главных компонент
- f-статистика и тесты на примеси
- Референтные панели для происхождения
Key theories
- Модельное смешение происхождения
- Геном каждого индивидуума моделируется как смесь, полученная из K популяций предков с различными частотами аллелей; методы, основанные на правдоподобии или Байесе, совместно оценивают частоты аллелей предков и пропорции происхождения каждого индивидуума, обеспечивая вероятностное разложение структуры.
Mechanisms
Модельные методы рассматривают каждый геном как смесь K популяций предков и оценивают, с помощью правдоподобия или байесовского вывода, как частоты аллелей предков, так и пропорции смешения каждого индивидуума; эффективная реализация максимального правдоподобия сделала это возможным в масштабе генома. Дополнительные подходы используют анализ главных компонент для размещения индивидуумов в низкоразмерном пространстве происхождения без предварительного указания популяций. Формальные тесты на примеси, основанные на f-статистике, сравнивают закономерности совместного использования аллелей между популяциями для обнаружения и количественной оценки исторического потока генов. Все они зависят от соответствующих референтных популяций и от выбора количества исходных популяций.
Clinical relevance
Вывод происхождения поддерживает правильную обработку популяционной структуры в генетических исследованиях и соответствующее использование референтных данных, подобранных по происхождению, при интерпретации геномных результатов. Эта статья описывает статистические методы, используемые для оценки генетического происхождения, и не является основой для индивидуальных диагностических или лечебных решений, а также для приравнивания генетического происхождения к социальной идентичности.
Evidence & guidelines
Оценка происхождения на основе моделей была установлена фреймворком STRUCTURE и масштабирована с помощью реализаций максимального правдоподобия, в то время как методы главных компонент и тесты на примеси с использованием f-статистики предоставляют дополнительные, широко используемые подходы; полногеномные исследования мирового человеческого разнообразия демонстрируют их применение в различных популяциях.
History
Кластеризация многолокусных генотипов на основе моделей была введена около 2000 года и быстро стала стандартом для описания популяционной структуры; более быстрые реализации максимального правдоподобия последовали по мере роста полногеномных данных. Методы главных компонент были адаптированы для вывода происхождения в середине 2000-х годов, а фреймворки f-статистики формализовали тесты на древние примеси, что в совокупности сделало вывод происхождения и примесей центральными инструментами популяционной геномики.
Debates
- Как следует выбирать и интерпретировать количество исходных популяций (K)?
- Модельные методы требуют указания или выбора K, но выведенные кластеры являются статистическими конструкциями, интерпретация которых зависит от выборки и от K; рассмотрение их как естественных, дискретных популяций может вводить в заблуждение.
Key figures
- Jonathan Pritchard
- John Novembre
- David Reich
- Nick Patterson
Related topics
Seminal works
- pritchard-2000
- alexander-2009
- patterson-2012
Frequently asked questions
- Что означает, например, 30% доля происхождения от одной популяции?
- Это модельная оценка, согласно которой примерно 30% генома индивидуума лучше всего объясняется частотами аллелей этого предполагаемого предкового источника; это статистическое разложение относительно выбранных референтных популяций, а не фиксированная биологическая метка.
- Как обнаруживается примесь между популяциями?
- Формальные тесты, основанные на f-статистике, сравнивают закономерности общего разнообразия между несколькими популяциями; отклонения от того, что ожидалось бы без потока генов, служат доказательством того, что примесь произошла.