ScholarGate
Ассистент

Дизайн, выполнение и статистические методы GWAS

Разработка и анализ полногеномного исследования ассоциаций (GWAS) представляет собой дисциплинированный процесс: сбор хорошо фенотипированных случаев и контролей (или когорты с количественным признаком), генотипирование и импутация вариантов по всему геному, тщательная очистка данных с помощью строгого контроля качества, тестирование каждого варианта на ассоциацию с поправкой на происхождение и оценка сигналов по пороговому значению полногеномной значимости перед поиском репликации. Каждый шаг направлен на предотвращение ложных открытий, вызванных огромным количеством статистических тестов.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Дизайн и анализ GWAS — это совокупность решений по дизайну исследования и статистических процедур, с помощью которых тестируются ассоциации вариантов и фенотипов по всему геному, контролируются ложноположительные результаты среди миллионов сравнений, а достоверные сигналы отличают от артефактов генотипирования, родства или происхождения.

Scope

Эта тема охватывает методологическую основу GWAS: определение выборки и фенотипа, генотипирование и импутацию, фильтры контроля качества, модель ассоциации с одним маркером, поправку на множественное тестирование и полногеномную значимость, диагностические показатели, такие как коэффициент геномной инфляции и QQ/Манхэттенские графики, а также репликацию. Это справочник по методам, а не протокол для клинического генетического тестирования.

Core questions

  • Какой размер выборки и определение фенотипа обеспечивают достаточную мощность для обнаружения вариантов с малым эффектом?
  • Какие фильтры контроля качества удаляют ненадежные варианты и образцы перед тестированием?
  • Какая регрессионная модель используется для теста ассоциации с одним маркером и как корректируется происхождение?
  • Какой порог значимости контролирует полногеномные ложноположительные результаты и почему он близок к 5 x 10^-8?
  • Как отличить подлинный сигнал от геномной инфляции и почему требуется репликация?

Key concepts

  • Дизайн «случай-контроль» и дизайн с количественными признаками
  • Вызов генотипов и импутация
  • Контроль качества (скорость вызова, MAF, фильтры равновесия Харди-Вайнберга)
  • Тест ассоциации с одним маркером (логистическая или линейная регрессия)
  • Аддитивная генетическая модель и эффект на аллель (отношение шансов или бета-коэффициент)
  • Полногеномный порог значимости (~5 x 10^-8)
  • Коэффициент геномной инфляции (лямбда) и QQ-графики
  • Манхэттенский график и репликация

Mechanisms

Каждый вариант обычно тестируется с помощью регрессионной модели — логистической для бинарного статуса заболевания, линейной для количественных признаков, — в которой вариант кодируется по аддитивной (на аллель) модели, а основные компоненты происхождения плюс другие ковариаты включаются для контроля смешения. Результатом для каждого варианта является оценка эффекта (отношение шансов или бета-коэффициент) и p-значение. Поскольку тестируются сотни тысяч до миллионов в значительной степени независимых распространенных вариантов, значимость оценивается по полногеномному порогу около 5 x 10^-8, полученному из поправки типа Бонферрони для эффективного числа независимых тестов. Перед тестированием контроль качества удаляет образцы и варианты с низкими показателями вызовов, экстремальными отклонениями от равновесия Харди-Вайнберга в контролях, очень низкой частотой минорного аллеля или признаками родства и популяционных выбросов. Коэффициент геномной инфляции и QQ-графики выявляют остаточное смешение; Манхэттенские графики отображают сигналы по всему геному; а независимая репликация защищает от артефактов, специфичных для дизайна. Программное обеспечение, такое как PLINK, стандартизировало эти шаги.

Clinical relevance

Понимание дизайна и анализа GWAS является частью оценки генетических данных, цитируемых в исследованиях заболеваний и при построении полигенных показателей. Эта тема объясняет, как генерируются и проверяются ассоциации, и носит описательный характер; она не является процедурой для индивидуальной генетической диагностики или для принятия клинических решений.

Evidence & guidelines

Аналитические конвенции были консолидированы благодаря опыту консорциумов и методологическим обзорам, а не формальным клиническим рекомендациям. Консорциум Wellcome Trust Case Control (2007) продемонстрировал дизайн с общими контролями и строгий контроль качества в масштабе; PLINK (Purcell et al., 2007) стал стандартным набором инструментов для анализа; а обзоры McCarthy et al. (2008) и Bush and Moore (2012) изложили общепринятые ожидания в отношении мощности, контроля качества, порогов значимости и репликации.

History

Процесс кристаллизовался с первыми крупными полногеномными сканированиями в середине 2000-х годов, когда доступные массивы и импутация на основе HapMap сделали полногеномное тестирование практичным. Исследование Консорциума Wellcome Trust Case Control 2007 года установило влиятельные прецеденты для общих контролей, контроля качества и порога 5 x 10^-8, в то время как выпуск PLINK предоставил сообществу общий набор аналитических инструментов. Методологические обзоры впоследствии кодифицировали передовую практику, а аналитический инструментарий позже расширился до смешанных моделей, методов суммарной статистики и очень больших когорт биобанков.

Debates

Подходит ли фиксированный порог 5 x 10^-8 для всех дизайнов исследований и происхождений?
Обычный полногеномный порог был откалиброван для распространенных вариаций в образцах европейского происхождения; более плотное секвенирование, более редкие варианты и другие происхождения подразумевают другое эффективное число независимых тестов, поэтому обсуждается, должен ли порог быть специфичным для дизайна.

Key figures

  • Shaun Purcell
  • Mark McCarthy
  • Jason Moore
  • William Bush
  • Peter Visscher

Related topics

Seminal works

  • wtccc-2007
  • purcell-2007
  • mccarthy-2008

Frequently asked questions

Почему порог значимости GWAS установлен около 5 x 10^-8?
Он аппроксимирует поправку Бонферрони для примерно одного миллиона эффективно независимых распространенных вариантов в геноме человека, поддерживая полногеномный уровень ложноположительных результатов около обычного уровня 0,05.
Почему результаты GWAS должны быть реплицированы?
Одно исследование может дать ложные ассоциации из-за тонких проблем контроля качества, остаточного смешения или случайности на грани значимости; независимая репликация в отдельной выборке является стандартной проверкой того, что сигнал реален.

Methods for this concept

Related concepts