Популяционная стратификация и происхождение в GWAS
Популяционная стратификация — это систематическое различие в происхождении между людьми, сравниваемыми в генетическом исследовании. Когда случаи и контроли различаются по происхождению, любой вариант, частота которого случайно различается между этими группами происхождения, будет выглядеть связанным с признаком, даже если он не имеет причинной роли — это смешение, которое может привести к ложноположительным результатам по всему геному. Выявление и корректировка происхождения, таким образом, является основной гарантией достоверности ассоциативного тестирования.
Definition
Популяционная стратификация — это смешение ассоциации генотип-фенотип, вызванное систематическими различиями в происхождении между сравниваемыми группами, а ее контроль — это набор методов, в основном главные компоненты происхождения и смешанные модели, которые корректируют ассоциативные тесты таким образом, чтобы сигналы отражали внутригрупповые эффекты, а не само происхождение.
Scope
Эта тема охватывает причины, по которым различия в происхождении искажают результаты ассоциативных тестов, методы выявления стратификации (геномная инфляция, анализ главных компонент), методы ее коррекции (ковариаты главных компонент, смешанные модели, геномный контроль), а также более широкую проблему справедливости, заключающуюся в том, что перекос GWAS в сторону европейского происхождения ограничивает переносимость результатов и полигенных оценок. Это справочник по методам, а не клиническое руководство.
Core questions
- Как различия в происхождении между случаями и контролями создают ложные ассоциации?
- Как выявляется стратификация, и что указывает завышенный фактор геномного контроля?
- Как анализ главных компонент корректирует происхождение?
- Когда смешанные модели предпочтительнее для учета структуры и родства?
- Почему перекос GWAS в сторону европейского происхождения ограничивает обобщаемость?
Key concepts
- Смешение по происхождению
- Геномный контроль и фактор инфляции (лямбда)
- Анализ главных компонент генотипов
- Маркеры, информативные для происхождения
- Линейные смешанные модели для структуры и родства
- Примесь и непрерывное происхождение
- Переносимость результатов и полигенных оценок между группами происхождения
Mechanisms
Если подгруппы с различным происхождением неравномерно представлены среди случаев и контролей, и если риск заболевания и частоты аллелей различаются между этими подгруппами, частота аллелей будет отслеживать признак через происхождение, а не через причинно-следственную связь, завышая статистику тестов по всему геному. Выявление основано на этой общегеномной сигнатуре: коэффициент инфляции геномного контроля суммирует, насколько медианная статистика теста превышает ее нулевое ожидание, а анализ главных компонент общегеномных генотипов выявляет оси вариации происхождения среди образцов. Коррекция обычно включает ведущие главные компоненты в качестве ковариат в регрессии, что поглощает сигнал происхождения, или использует линейные смешанные модели, которые совместно учитывают структуру и скрытое родство через матрицу генетического родства. Референсные панели, такие как проект «1000 геномов», помогают разместить образцы на глобальной карте происхождения и информировать об импутации. Поскольку большинство образцов GWAS имеют европейское происхождение, даже хорошо скорректированные анализы дают оценки эффектов и полигенные оценки, которые неидеально переносятся на другие популяции.
Clinical relevance
Корректировка происхождения необходима для достоверности генетических данных, используемых в исследованиях заболеваний, а состав происхождения в исследованиях напрямую влияет на то, чья биология представлена в геномных данных и оценках. Эта тема описывает методы и соображения справедливости; она не является основой для индивидуального генетического тестирования или клинической интерпретации.
Evidence & guidelines
Стандарты здесь исходят из методологической литературы, а не из клинических рекомендаций. Прайс и соавт. (2006) представили коррекцию главных компонент (подход EIGENSTRAT) как масштабируемое решение; Прайс и соавт. (2010) рассмотрели и расширили стратегии, включая смешанные модели; проект «1000 геномов» (2015) предоставил разнообразные референсные данные, необходимые для характеристики происхождения; а Вишер и соавт. (2017) подчеркивают последствия дисбаланса происхождения для обобщаемости и справедливости.
History
Обеспокоенность тем, что происхождение может искажать генетические ассоциации, предшествовала GWAS, и для ее решения были разработаны ранние подходы, такие как геномный контроль и структурированная ассоциация. Введение анализа главных компонент в 2006 году дало быстрый, общегеномный способ моделирования непрерывного происхождения и стало стандартной практикой, позже дополненной методами смешанных моделей, которые также учитывают родство. По мере масштабирования GWAS в биобанки, область все больше осознавала, что контроль стратификации в преимущественно европейских выборках не решает более крупную проблему недостаточной представленности других групп происхождения.
Debates
- Полностью ли коррекции происхождения устраняют смешение, или они также могут устранять реальный сигнал?
- Главные компоненты и смешанные модели эффективно контролируют стратификацию в большинстве случаев, но различение смешения от подлинной биологии, коррелирующей с происхождением, и избегание чрезмерной коррекции, которая стирает реальные эффекты, остается методологическим суждением, особенно для признаков с тонкой географической структурой.
- Подрывает ли перекос GWAS в сторону европейского происхождения справедливость и достоверность?
- Результаты и полигенные оценки, полученные в основном из выборок европейского происхождения, неидеально переносятся на другие популяции, что вызывает научные опасения по поводу обобщаемости и этические опасения по поводу распределения преимуществ геномной медицины.
Key figures
- Alkes Price
- David Reich
- Nick Patterson
- Noah Zaitlen
- Peter Visscher
Related topics
Seminal works
- price-2006
- price-2010
Frequently asked questions
- Как популяционная стратификация приводит к ложным результатам GWAS?
- Если случаи и контроли различаются по происхождению, варианты, частота которых различается между этими группами происхождения, кажутся связанными с признаком через происхождение, а не через причинно-следственную связь, что приводит к ложным ассоциациям по всему геному.
- Как обычно корректируется стратификация?
- Стандартный подход включает ведущие главные компоненты общегеномных генотипов в качестве ковариат или использует линейную смешанную модель, так что ассоциативные тесты отражают эффекты внутри происхождения, а не различия в происхождении как таковые.