Diseño, Ejecución y Métodos Estadísticos de los GWAS
El diseño y análisis de un estudio de asociación de genoma completo (GWAS) sigue un proceso riguroso: se ensamblan casos y controles bien fenotipados (o una cohorte con rasgos cuantitativos), se genotipan e imputan variantes en todo el genoma, se depuran los datos mediante un control de calidad estricto, se prueba cada variante en busca de asociación ajustando por ascendencia, y se evalúan las señales frente a un umbral de significación a nivel de genoma antes de buscar replicación. Cada paso existe para evitar que el enorme número de pruebas estadísticas produzca descubrimientos falsos.
Definition
El diseño y análisis de GWAS es el conjunto de decisiones de diseño de estudio y procedimientos estadísticos mediante los cuales se prueban las asociaciones variante-fenotipo a nivel de genoma, se controlan los falsos positivos a través de millones de comparaciones, y se distinguen las señales creíbles de los artefactos de genotipado, parentesco o ascendencia.
Scope
Este tema cubre la estructura metodológica de un GWAS: la definición de la muestra y el fenotipo, el genotipado y la imputación, los filtros de control de calidad, el modelo de asociación de marcador único, la corrección por pruebas múltiples y la significación a nivel de genoma, diagnósticos como el factor de inflación genómica y los gráficos QQ/Manhattan, y la replicación. Es una referencia metodológica y no un protocolo para pruebas genéticas clínicas.
Core questions
- ¿Qué tamaño de muestra y definición de fenotipo proporcionan una potencia adecuada para detectar variantes de pequeño efecto?
- ¿Qué filtros de control de calidad eliminan variantes y muestras poco fiables antes de la prueba?
- ¿Qué modelo de regresión se utiliza para una prueba de asociación de marcador único y cómo se ajusta la ascendencia?
- ¿Qué umbral de significación controla los falsos positivos a nivel de genoma, y por qué está cerca de 5 x 10^-8?
- ¿Cómo se distingue una señal genuina de la inflación genómica, y por qué se requiere replicación?
Key concepts
- Diseños de casos y controles y de rasgos cuantitativos
- Llamada de genotipos e imputación
- Control de calidad (tasa de llamada, MAF, filtros de equilibrio de Hardy-Weinberg)
- Prueba de asociación de marcador único (regresión logística o lineal)
- Modelo genético aditivo y efecto por alelo (razón de posibilidades u odds ratio, o beta)
- Umbral de significación a nivel de genoma (~5 x 10^-8)
- Factor de inflación genómica (lambda) y gráficos QQ
- Gráfico Manhattan y replicación
Mechanisms
Cada variante se prueba típicamente con un modelo de regresión —logístico para el estado de enfermedad binario, lineal para rasgos cuantitativos— en el que la variante se codifica bajo un modelo aditivo (por alelo) y se incluyen componentes principales de ascendencia más otras covariables para controlar la confusión. El resultado por variante es una estimación del efecto (razón de posibilidades u odds ratio, o beta) y un valor p. Debido a que se prueban cientos de miles a millones de variantes comunes en gran medida independientes, la significación se evalúa frente a un umbral a nivel de genoma de aproximadamente 5 x 10^-8, derivado de una corrección tipo Bonferroni para el número efectivo de pruebas independientes. Antes de la prueba, el control de calidad elimina muestras y variantes con bajas tasas de llamada, desviación extrema del equilibrio de Hardy-Weinberg en los controles, frecuencia alélica menor muy baja, o evidencia de parentesco y valores atípicos de población. El factor de inflación genómica y los gráficos QQ señalan la confusión residual; los gráficos Manhattan muestran las señales a través del genoma; y la replicación independiente protege contra artefactos específicos del diseño. Software como PLINK estandarizó estos pasos.
Clinical relevance
Comprender el diseño y análisis de los GWAS es parte de la evaluación de la evidencia genética citada en la investigación de enfermedades y en la construcción de puntuaciones poligénicas. Este tema explica cómo se generan y validan las asociaciones y es descriptivo; no es un procedimiento para el diagnóstico genético individual o para la toma de decisiones clínicas.
Evidence & guidelines
Las convenciones analíticas se consolidaron a través de la experiencia de consorcios y revisiones metodológicas, más que mediante guías clínicas formales. El Wellcome Trust Case Control Consortium (2007) demostró el diseño de controles compartidos y un control de calidad riguroso a gran escala; PLINK (Purcell et al., 2007) se convirtió en un conjunto de herramientas de análisis estándar; y las revisiones de McCarthy et al. (2008) y Bush y Moore (2012) establecen expectativas ampliamente aceptadas para la potencia, el control de calidad, los umbrales de significación y la replicación.
History
El proceso se consolidó con los primeros grandes barridos a nivel de genoma a mediados de la década de 2000, cuando los arrays asequibles y la imputación basada en HapMap hicieron práctico el cribado de genoma completo. El estudio del Wellcome Trust Case Control Consortium de 2007 sentó precedentes influyentes para los controles compartidos, el control de calidad y el umbral de 5 x 10^-8, mientras que el lanzamiento de PLINK proporcionó a la comunidad un conjunto de herramientas analíticas común. Las revisiones metodológicas codificaron posteriormente las mejores prácticas, y el conjunto de herramientas analíticas se expandió más tarde a modelos mixtos, métodos de estadísticas resumen y cohortes de biobancos muy grandes.
Debates
- ¿Es apropiado un umbral fijo de 5 x 10^-8 en todos los diseños de estudio y ascendencias?
- El umbral convencional a nivel de genoma se calibró para la variación común en muestras de ascendencia europea; una secuenciación más densa, variantes más raras y otras ascendencias implican un número efectivo diferente de pruebas independientes, por lo que se debate si el umbral debería ser específico del diseño.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- ¿Por qué el umbral de significación de los GWAS se establece cerca de 5 x 10^-8?
- Aproxima una corrección de Bonferroni para el aproximadamente un millón de variantes comunes efectivamente independientes en el genoma humano, manteniendo la tasa de falsos positivos a nivel de genoma cerca del nivel convencional de 0.05.
- ¿Por qué debe replicarse un hallazgo de GWAS?
- Un solo estudio puede producir asociaciones espurias debido a problemas sutiles de control de calidad, confusión residual o el azar al límite de la significación; la replicación independiente en una muestra separada es la verificación estándar de que una señal es real.
Methods for this concept
Related concepts
- Estudios de Asociación de Genoma Completo y Descubrimiento de Variantes
- Estratificación poblacional y ascendencia en GWAS
- Heredabilidad Perdida y Arquitectura Poligénica
- Descubrimiento de variantes raras y pruebas de carga
- Mapeo de QTL y rasgos complejos
- Base Genética de la Susceptibilidad a Enfermedades