Desenho, Execução e Métodos Estatísticos de GWAS
Desenhar e analisar um estudo de associação de todo o genoma (GWAS) é um processo disciplinado: reunir casos e controles bem fenotipados (ou uma coorte de traço quantitativo), genotipar e imputar variantes em todo o genoma, depurar os dados através de um controle de qualidade rigoroso, testar cada variante para associação ajustando para a ancestralidade, e julgar os sinais contra um limiar de significância genômica antes de buscar a replicação. Cada etapa existe para evitar que o enorme número de testes estatísticos produza descobertas falsas.
Definition
O desenho e a análise de GWAS são o conjunto de escolhas de desenho de estudo e procedimentos estatísticos pelos quais as associações variante-fenótipo são testadas em todo o genoma, os falsos positivos são controlados em milhões de comparações, e os sinais credíveis são distinguidos de artefatos de genotipagem, parentesco ou ancestralidade.
Scope
Este tópico abrange a espinha dorsal metodológica de um GWAS: definição de amostra e fenótipo, genotipagem e imputação, filtros de controle de qualidade, o modelo de associação de marcador único, correção de testes múltiplos e significância genômica, diagnósticos como o fator de inflação genômica e gráficos QQ/Manhattan, e replicação. É uma referência de métodos e não um protocolo para testes genéticos clínicos.
Core questions
- Qual tamanho de amostra e definição de fenótipo fornecem poder adequado para detectar variantes de pequeno efeito?
- Quais filtros de controle de qualidade removem variantes e amostras não confiáveis antes do teste?
- Qual modelo de regressão é usado para um teste de associação de marcador único, e como a ancestralidade é ajustada?
- Qual limiar de significância controla os falsos positivos em todo o genoma, e por que ele está próximo de 5 x 10^-8?
- Como um sinal genuíno é distinguido da inflação genômica, e por que a replicação é necessária?
Key concepts
- Desenhos caso-controle e de traço quantitativo
- Chamada e imputação de genótipos
- Controle de qualidade (taxa de chamada, MAF, filtros de equilíbrio de Hardy-Weinberg)
- Teste de associação de marcador único (regressão logística ou linear)
- Modelo genético aditivo e efeito por alelo (razão de chances ou beta)
- Limiar de significância genômica (~5 x 10^-8)
- Fator de inflação genômica (lambda) e gráficos QQ
- Gráfico de Manhattan e replicação
Mechanisms
Cada variante é tipicamente testada com um modelo de regressão – logística para status de doença binária, linear para traços quantitativos – no qual a variante é codificada sob um modelo aditivo (por alelo) e os componentes principais de ancestralidade, além de outras covariáveis, são incluídos para controlar o confundimento. O resultado por variante é uma estimativa de efeito (razão de chances ou beta) e um valor p. Como centenas de milhares a milhões de variantes comuns amplamente independentes são testadas, a significância é julgada contra um limiar genômico de cerca de 5 x 10^-8, derivado da correção estilo Bonferroni para o número efetivo de testes independentes. Antes do teste, o controle de qualidade remove amostras e variantes com baixas taxas de chamada, desvio extremo do equilíbrio de Hardy-Weinberg em controles, frequência alélica menor muito baixa, ou evidência de parentesco e outliers populacionais. O fator de inflação genômica e os gráficos QQ sinalizam o confundimento residual; os gráficos de Manhattan exibem sinais em todo o genoma; e a replicação independente protege contra artefatos específicos do desenho. Softwares como o PLINK padronizaram essas etapas.
Clinical relevance
Compreender o desenho e a análise de GWAS faz parte da avaliação da evidência genética citada na pesquisa de doenças e na construção de escores poligênicos. Este tópico explica como as associações são geradas e validadas e é descritivo; não é um procedimento para diagnóstico genético individual ou para tomada de decisão clínica.
Evidence & guidelines
As convenções analíticas foram consolidadas através da experiência de consórcios e revisões metodológicas, em vez de diretrizes clínicas formais. O Wellcome Trust Case Control Consortium (2007) demonstrou o desenho de controle compartilhado e o controle de qualidade rigoroso em escala; o PLINK (Purcell et al., 2007) tornou-se um kit de ferramentas de análise padrão; e as revisões de McCarthy et al. (2008) e Bush e Moore (2012) estabelecem expectativas amplamente aceitas para poder, controle de qualidade, limiares de significância e replicação.
History
O processo se consolidou com os primeiros grandes rastreamentos genômicos em meados dos anos 2000, quando arrays acessíveis e a imputação baseada no HapMap tornaram o teste de todo o genoma prático. O estudo do Wellcome Trust Case Control Consortium de 2007 estabeleceu precedentes influentes para controles compartilhados, controle de qualidade e o limiar de 5 x 10^-8, enquanto o lançamento do PLINK forneceu à comunidade um conjunto de ferramentas analíticas comum. Revisões metodológicas subsequentemente codificaram as melhores práticas, e o kit de ferramentas analíticas mais tarde se expandiu para modelos mistos, métodos de estatísticas de resumo e coortes de biobancos muito grandes.
Debates
- Um limiar fixo de 5 x 10^-8 é apropriado para todos os desenhos de estudo e ancestralidades?
- O limiar genômico convencional foi calibrado para variação comum em amostras de ancestralidade europeia; sequenciamento mais denso, variantes mais raras e outras ancestralidades implicam um número efetivo diferente de testes independentes, então se o limiar deve ser específico do desenho é debatido.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- Por que o limiar de significância de GWAS é definido próximo de 5 x 10^-8?
- Ele aproxima uma correção de Bonferroni para o aproximadamente um milhão de variantes comuns efetivamente independentes no genoma humano, mantendo a taxa de falsos positivos em todo o genoma próxima do nível convencional de 0,05.
- Por que um achado de GWAS deve ser replicado?
- Um único estudo pode produzir associações espúrias devido a problemas sutis de controle de qualidade, confundimento residual ou acaso na borda da significância; a replicação independente em uma amostra separada é a verificação padrão de que um sinal é real.