Дизайн, выполнение и статистические методы GWAS
Разработка и анализ полногеномного исследования ассоциаций (GWAS) представляет собой дисциплинированный процесс: сбор хорошо фенотипированных случаев и контролей (или когорты с количественным признаком), генотипирование и импутация вариантов по всему геному, тщательная очистка данных с помощью строгого контроля качества, тестирование каждого варианта на ассоциацию с поправкой на происхождение и оценка сигналов по пороговому значению полногеномной значимости перед поиском репликации. Каждый шаг направлен на предотвращение ложных открытий, вызванных огромным количеством статистических тестов.
Definition
Дизайн и анализ GWAS — это совокупность решений по дизайну исследования и статистических процедур, с помощью которых тестируются ассоциации вариантов и фенотипов по всему геному, контролируются ложноположительные результаты среди миллионов сравнений, а достоверные сигналы отличают от артефактов генотипирования, родства или происхождения.
Scope
Эта тема охватывает методологическую основу GWAS: определение выборки и фенотипа, генотипирование и импутацию, фильтры контроля качества, модель ассоциации с одним маркером, поправку на множественное тестирование и полногеномную значимость, диагностические показатели, такие как коэффициент геномной инфляции и QQ/Манхэттенские графики, а также репликацию. Это справочник по методам, а не протокол для клинического генетического тестирования.
Core questions
- Какой размер выборки и определение фенотипа обеспечивают достаточную мощность для обнаружения вариантов с малым эффектом?
- Какие фильтры контроля качества удаляют ненадежные варианты и образцы перед тестированием?
- Какая регрессионная модель используется для теста ассоциации с одним маркером и как корректируется происхождение?
- Какой порог значимости контролирует полногеномные ложноположительные результаты и почему он близок к 5 x 10^-8?
- Как отличить подлинный сигнал от геномной инфляции и почему требуется репликация?
Key concepts
- Дизайн «случай-контроль» и дизайн с количественными признаками
- Вызов генотипов и импутация
- Контроль качества (скорость вызова, MAF, фильтры равновесия Харди-Вайнберга)
- Тест ассоциации с одним маркером (логистическая или линейная регрессия)
- Аддитивная генетическая модель и эффект на аллель (отношение шансов или бета-коэффициент)
- Полногеномный порог значимости (~5 x 10^-8)
- Коэффициент геномной инфляции (лямбда) и QQ-графики
- Манхэттенский график и репликация
Mechanisms
Каждый вариант обычно тестируется с помощью регрессионной модели — логистической для бинарного статуса заболевания, линейной для количественных признаков, — в которой вариант кодируется по аддитивной (на аллель) модели, а основные компоненты происхождения плюс другие ковариаты включаются для контроля смешения. Результатом для каждого варианта является оценка эффекта (отношение шансов или бета-коэффициент) и p-значение. Поскольку тестируются сотни тысяч до миллионов в значительной степени независимых распространенных вариантов, значимость оценивается по полногеномному порогу около 5 x 10^-8, полученному из поправки типа Бонферрони для эффективного числа независимых тестов. Перед тестированием контроль качества удаляет образцы и варианты с низкими показателями вызовов, экстремальными отклонениями от равновесия Харди-Вайнберга в контролях, очень низкой частотой минорного аллеля или признаками родства и популяционных выбросов. Коэффициент геномной инфляции и QQ-графики выявляют остаточное смешение; Манхэттенские графики отображают сигналы по всему геному; а независимая репликация защищает от артефактов, специфичных для дизайна. Программное обеспечение, такое как PLINK, стандартизировало эти шаги.
Clinical relevance
Понимание дизайна и анализа GWAS является частью оценки генетических данных, цитируемых в исследованиях заболеваний и при построении полигенных показателей. Эта тема объясняет, как генерируются и проверяются ассоциации, и носит описательный характер; она не является процедурой для индивидуальной генетической диагностики или для принятия клинических решений.
Evidence & guidelines
Аналитические конвенции были консолидированы благодаря опыту консорциумов и методологическим обзорам, а не формальным клиническим рекомендациям. Консорциум Wellcome Trust Case Control (2007) продемонстрировал дизайн с общими контролями и строгий контроль качества в масштабе; PLINK (Purcell et al., 2007) стал стандартным набором инструментов для анализа; а обзоры McCarthy et al. (2008) и Bush and Moore (2012) изложили общепринятые ожидания в отношении мощности, контроля качества, порогов значимости и репликации.
History
Процесс кристаллизовался с первыми крупными полногеномными сканированиями в середине 2000-х годов, когда доступные массивы и импутация на основе HapMap сделали полногеномное тестирование практичным. Исследование Консорциума Wellcome Trust Case Control 2007 года установило влиятельные прецеденты для общих контролей, контроля качества и порога 5 x 10^-8, в то время как выпуск PLINK предоставил сообществу общий набор аналитических инструментов. Методологические обзоры впоследствии кодифицировали передовую практику, а аналитический инструментарий позже расширился до смешанных моделей, методов суммарной статистики и очень больших когорт биобанков.
Debates
- Подходит ли фиксированный порог 5 x 10^-8 для всех дизайнов исследований и происхождений?
- Обычный полногеномный порог был откалиброван для распространенных вариаций в образцах европейского происхождения; более плотное секвенирование, более редкие варианты и другие происхождения подразумевают другое эффективное число независимых тестов, поэтому обсуждается, должен ли порог быть специфичным для дизайна.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- Почему порог значимости GWAS установлен около 5 x 10^-8?
- Он аппроксимирует поправку Бонферрони для примерно одного миллиона эффективно независимых распространенных вариантов в геноме человека, поддерживая полногеномный уровень ложноположительных результатов около обычного уровня 0,05.
- Почему результаты GWAS должны быть реплицированы?
- Одно исследование может дать ложные ассоциации из-за тонких проблем контроля качества, остаточного смешения или случайности на грани значимости; независимая репликация в отдельной выборке является стандартной проверкой того, что сигнал реален.
Methods for this concept
Related concepts
- Полногеномный поиск ассоциаций и обнаружение вариантов
- Популяционная стратификация и происхождение в GWAS
- Недостающая наследуемость и полигенная архитектура
- Выявление редких вариантов и нагрузочное тестирование
- Картирование локусов количественных признаков (QTL) и сложных признаков
- Генетическая основа предрасположенности к заболеваниям