Почему порог значимости GWAS установлен около 5 x 10^-8?

Он аппроксимирует поправку Бонферрони для примерно одного миллиона эффективно независимых распространенных вариантов в геноме человека, поддерживая полногеномный уровень ложноположительных результатов около обычного уровня 0,05.

Почему результаты GWAS должны быть реплицированы?

Одно исследование может дать ложные ассоциации из-за тонких проблем контроля качества, остаточного смешения или случайности на грани значимости; независимая репликация в отдельной выборке является стандартной проверкой того, что сигнал реален.

Дизайн, выполнение и статистические методы GWAS

Разработка и анализ полногеномного исследования ассоциаций (GWAS) представляет собой дисциплинированный процесс: сбор хорошо фенотипированных случаев и контролей (или когорты с количественным признаком), генотипирование и импутация вариантов по всему геному, тщательная очистка данных с помощью строгого контроля качества, тестирование каждого варианта на ассоциацию с поправкой на происхождение и оценка сигналов по пороговому значению полногеномной значимости перед поиском репликации. Каждый шаг направлен на предотвращение ложных открытий, вызванных огромным количеством статистических тестов.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Дизайн и анализ GWAS — это совокупность решений по дизайну исследования и статистических процедур, с помощью которых тестируются ассоциации вариантов и фенотипов по всему геному, контролируются ложноположительные результаты среди миллионов сравнений, а достоверные сигналы отличают от артефактов генотипирования, родства или происхождения.

Scope

Эта тема охватывает методологическую основу GWAS: определение выборки и фенотипа, генотипирование и импутацию, фильтры контроля качества, модель ассоциации с одним маркером, поправку на множественное тестирование и полногеномную значимость, диагностические показатели, такие как коэффициент геномной инфляции и QQ/Манхэттенские графики, а также репликацию. Это справочник по методам, а не протокол для клинического генетического тестирования.

Core questions

Какой размер выборки и определение фенотипа обеспечивают достаточную мощность для обнаружения вариантов с малым эффектом?
Какие фильтры контроля качества удаляют ненадежные варианты и образцы перед тестированием?
Какая регрессионная модель используется для теста ассоциации с одним маркером и как корректируется происхождение?
Какой порог значимости контролирует полногеномные ложноположительные результаты и почему он близок к 5 x 10^-8?
Как отличить подлинный сигнал от геномной инфляции и почему требуется репликация?

Key concepts

Дизайн «случай-контроль» и дизайн с количественными признаками
Вызов генотипов и импутация
Контроль качества (скорость вызова, MAF, фильтры равновесия Харди-Вайнберга)
Тест ассоциации с одним маркером (логистическая или линейная регрессия)
Аддитивная генетическая модель и эффект на аллель (отношение шансов или бета-коэффициент)
Полногеномный порог значимости (~5 x 10^-8)
Коэффициент геномной инфляции (лямбда) и QQ-графики
Манхэттенский график и репликация

Mechanisms

Каждый вариант обычно тестируется с помощью регрессионной модели — логистической для бинарного статуса заболевания, линейной для количественных признаков, — в которой вариант кодируется по аддитивной (на аллель) модели, а основные компоненты происхождения плюс другие ковариаты включаются для контроля смешения. Результатом для каждого варианта является оценка эффекта (отношение шансов или бета-коэффициент) и p-значение. Поскольку тестируются сотни тысяч до миллионов в значительной степени независимых распространенных вариантов, значимость оценивается по полногеномному порогу около 5 x 10^-8, полученному из поправки типа Бонферрони для эффективного числа независимых тестов. Перед тестированием контроль качества удаляет образцы и варианты с низкими показателями вызовов, экстремальными отклонениями от равновесия Харди-Вайнберга в контролях, очень низкой частотой минорного аллеля или признаками родства и популяционных выбросов. Коэффициент геномной инфляции и QQ-графики выявляют остаточное смешение; Манхэттенские графики отображают сигналы по всему геному; а независимая репликация защищает от артефактов, специфичных для дизайна. Программное обеспечение, такое как PLINK, стандартизировало эти шаги.

Clinical relevance

Понимание дизайна и анализа GWAS является частью оценки генетических данных, цитируемых в исследованиях заболеваний и при построении полигенных показателей. Эта тема объясняет, как генерируются и проверяются ассоциации, и носит описательный характер; она не является процедурой для индивидуальной генетической диагностики или для принятия клинических решений.

Evidence & guidelines

Аналитические конвенции были консолидированы благодаря опыту консорциумов и методологическим обзорам, а не формальным клиническим рекомендациям. Консорциум Wellcome Trust Case Control (2007) продемонстрировал дизайн с общими контролями и строгий контроль качества в масштабе; PLINK (Purcell et al., 2007) стал стандартным набором инструментов для анализа; а обзоры McCarthy et al. (2008) и Bush and Moore (2012) изложили общепринятые ожидания в отношении мощности, контроля качества, порогов значимости и репликации.

History

Процесс кристаллизовался с первыми крупными полногеномными сканированиями в середине 2000-х годов, когда доступные массивы и импутация на основе HapMap сделали полногеномное тестирование практичным. Исследование Консорциума Wellcome Trust Case Control 2007 года установило влиятельные прецеденты для общих контролей, контроля качества и порога 5 x 10^-8, в то время как выпуск PLINK предоставил сообществу общий набор аналитических инструментов. Методологические обзоры впоследствии кодифицировали передовую практику, а аналитический инструментарий позже расширился до смешанных моделей, методов суммарной статистики и очень больших когорт биобанков.

Debates

Подходит ли фиксированный порог 5 x 10^-8 для всех дизайнов исследований и происхождений?: Обычный полногеномный порог был откалиброван для распространенных вариаций в образцах европейского происхождения; более плотное секвенирование, более редкие варианты и другие происхождения подразумевают другое эффективное число независимых тестов, поэтому обсуждается, должен ли порог быть специфичным для дизайна.

Key figures

Shaun Purcell
Mark McCarthy
Jason Moore
William Bush
Peter Visscher

Seminal works

wtccc-2007
purcell-2007
mccarthy-2008

Frequently asked questions

Почему порог значимости GWAS установлен около 5 x 10^-8?: Он аппроксимирует поправку Бонферрони для примерно одного миллиона эффективно независимых распространенных вариантов в геноме человека, поддерживая полногеномный уровень ложноположительных результатов около обычного уровня 0,05.
Почему результаты GWAS должны быть реплицированы?: Одно исследование может дать ложные ассоциации из-за тонких проблем контроля качества, остаточного смешения или случайности на грани значимости; независимая репликация в отдельной выборке является стандартной проверкой того, что сигнал реален.