ScholarGate
Assistente

Desenho, Execução e Métodos Estatísticos de GWAS

Desenhar e analisar um estudo de associação de todo o genoma (GWAS) é um processo disciplinado: reunir casos e controles bem fenotipados (ou uma coorte de traço quantitativo), genotipar e imputar variantes em todo o genoma, depurar os dados através de um controle de qualidade rigoroso, testar cada variante para associação ajustando para a ancestralidade, e julgar os sinais contra um limiar de significância genômica antes de buscar a replicação. Cada etapa existe para evitar que o enorme número de testes estatísticos produza descobertas falsas.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

O desenho e a análise de GWAS são o conjunto de escolhas de desenho de estudo e procedimentos estatísticos pelos quais as associações variante-fenótipo são testadas em todo o genoma, os falsos positivos são controlados em milhões de comparações, e os sinais credíveis são distinguidos de artefatos de genotipagem, parentesco ou ancestralidade.

Scope

Este tópico abrange a espinha dorsal metodológica de um GWAS: definição de amostra e fenótipo, genotipagem e imputação, filtros de controle de qualidade, o modelo de associação de marcador único, correção de testes múltiplos e significância genômica, diagnósticos como o fator de inflação genômica e gráficos QQ/Manhattan, e replicação. É uma referência de métodos e não um protocolo para testes genéticos clínicos.

Core questions

  • Qual tamanho de amostra e definição de fenótipo fornecem poder adequado para detectar variantes de pequeno efeito?
  • Quais filtros de controle de qualidade removem variantes e amostras não confiáveis antes do teste?
  • Qual modelo de regressão é usado para um teste de associação de marcador único, e como a ancestralidade é ajustada?
  • Qual limiar de significância controla os falsos positivos em todo o genoma, e por que ele está próximo de 5 x 10^-8?
  • Como um sinal genuíno é distinguido da inflação genômica, e por que a replicação é necessária?

Key concepts

  • Desenhos caso-controle e de traço quantitativo
  • Chamada e imputação de genótipos
  • Controle de qualidade (taxa de chamada, MAF, filtros de equilíbrio de Hardy-Weinberg)
  • Teste de associação de marcador único (regressão logística ou linear)
  • Modelo genético aditivo e efeito por alelo (razão de chances ou beta)
  • Limiar de significância genômica (~5 x 10^-8)
  • Fator de inflação genômica (lambda) e gráficos QQ
  • Gráfico de Manhattan e replicação

Mechanisms

Cada variante é tipicamente testada com um modelo de regressão – logística para status de doença binária, linear para traços quantitativos – no qual a variante é codificada sob um modelo aditivo (por alelo) e os componentes principais de ancestralidade, além de outras covariáveis, são incluídos para controlar o confundimento. O resultado por variante é uma estimativa de efeito (razão de chances ou beta) e um valor p. Como centenas de milhares a milhões de variantes comuns amplamente independentes são testadas, a significância é julgada contra um limiar genômico de cerca de 5 x 10^-8, derivado da correção estilo Bonferroni para o número efetivo de testes independentes. Antes do teste, o controle de qualidade remove amostras e variantes com baixas taxas de chamada, desvio extremo do equilíbrio de Hardy-Weinberg em controles, frequência alélica menor muito baixa, ou evidência de parentesco e outliers populacionais. O fator de inflação genômica e os gráficos QQ sinalizam o confundimento residual; os gráficos de Manhattan exibem sinais em todo o genoma; e a replicação independente protege contra artefatos específicos do desenho. Softwares como o PLINK padronizaram essas etapas.

Clinical relevance

Compreender o desenho e a análise de GWAS faz parte da avaliação da evidência genética citada na pesquisa de doenças e na construção de escores poligênicos. Este tópico explica como as associações são geradas e validadas e é descritivo; não é um procedimento para diagnóstico genético individual ou para tomada de decisão clínica.

Evidence & guidelines

As convenções analíticas foram consolidadas através da experiência de consórcios e revisões metodológicas, em vez de diretrizes clínicas formais. O Wellcome Trust Case Control Consortium (2007) demonstrou o desenho de controle compartilhado e o controle de qualidade rigoroso em escala; o PLINK (Purcell et al., 2007) tornou-se um kit de ferramentas de análise padrão; e as revisões de McCarthy et al. (2008) e Bush e Moore (2012) estabelecem expectativas amplamente aceitas para poder, controle de qualidade, limiares de significância e replicação.

History

O processo se consolidou com os primeiros grandes rastreamentos genômicos em meados dos anos 2000, quando arrays acessíveis e a imputação baseada no HapMap tornaram o teste de todo o genoma prático. O estudo do Wellcome Trust Case Control Consortium de 2007 estabeleceu precedentes influentes para controles compartilhados, controle de qualidade e o limiar de 5 x 10^-8, enquanto o lançamento do PLINK forneceu à comunidade um conjunto de ferramentas analíticas comum. Revisões metodológicas subsequentemente codificaram as melhores práticas, e o kit de ferramentas analíticas mais tarde se expandiu para modelos mistos, métodos de estatísticas de resumo e coortes de biobancos muito grandes.

Debates

Um limiar fixo de 5 x 10^-8 é apropriado para todos os desenhos de estudo e ancestralidades?
O limiar genômico convencional foi calibrado para variação comum em amostras de ancestralidade europeia; sequenciamento mais denso, variantes mais raras e outras ancestralidades implicam um número efetivo diferente de testes independentes, então se o limiar deve ser específico do desenho é debatido.

Key figures

  • Shaun Purcell
  • Mark McCarthy
  • Jason Moore
  • William Bush
  • Peter Visscher

Related topics

Seminal works

  • wtccc-2007
  • purcell-2007
  • mccarthy-2008

Frequently asked questions

Por que o limiar de significância de GWAS é definido próximo de 5 x 10^-8?
Ele aproxima uma correção de Bonferroni para o aproximadamente um milhão de variantes comuns efetivamente independentes no genoma humano, mantendo a taxa de falsos positivos em todo o genoma próxima do nível convencional de 0,05.
Por que um achado de GWAS deve ser replicado?
Um único estudo pode produzir associações espúrias devido a problemas sutis de controle de qualidade, confundimento residual ou acaso na borda da significância; a replicação independente em uma amostra separada é a verificação padrão de que um sinal é real.

Methods for this concept

Related concepts