Marco de Prueba de Hipótesis
El marco de prueba de hipótesis es un procedimiento estructurado para decidir si los datos de una muestra son compatibles con una afirmación específica sobre una población. Contrasta una hipótesis nula —generalmente una declaración de ausencia de efecto o diferencia— con una alternativa, calcula un estadístico de prueba y un valor p asociado, y utiliza un nivel de significación preestablecido para juzgar si la evidencia contra la nula es lo suficientemente sólida como para actuar en consecuencia. Es el procedimiento de decisión más utilizado y más debatido en la investigación cuantitativa en salud.
Definition
La prueba de hipótesis estadística es un procedimiento que utiliza un estadístico de prueba calculado a partir de datos de muestra para evaluar la compatibilidad de los datos con una hipótesis nula establecida, rechazando la nula a favor de una alternativa cuando el resultado es suficientemente improbable bajo la nula a un nivel de significación preespecificado.
Scope
Este tema abarca la lógica de las hipótesis nula y alternativa, el papel del estadístico de prueba y el valor p, el significado del nivel de significación, y las principales críticas a las pruebas de significación mecánicas. Se trata de una metodología de referencia para el diseño y la evaluación de estudios, no de una regla de decisión clínica.
Core questions
- ¿Qué hipótesis nula se está probando y contra qué alternativa?
- ¿Cuán sorprendentes son los datos observados si la hipótesis nula fuera verdadera?
- ¿Qué nivel de significación rige la decisión y por qué?
- ¿Qué nos permite concluir realmente el rechazo —o la falta de rechazo— de la hipótesis nula?
Key concepts
- Hipótesis nula
- Hipótesis alternativa
- Estadístico de prueba
- Valor p
- Nivel de significación (alfa)
- Región de rechazo
- Pruebas unilaterales y bilaterales
- Significación estadística versus práctica
Key theories
- Pruebas de Neyman-Pearson
- Plantea las pruebas como una elección entre dos hipótesis con tasas de error controladas a largo plazo, definiendo el nivel de significación (tasa de error Tipo I) de antemano y buscando la prueba que maximice la potencia contra la alternativa.
Mechanisms
Una prueba comienza estableciendo una hipótesis nula y una alternativa, luego resumiendo los datos en un estadístico de prueba cuya distribución bajo la nula es conocida. El valor p es la probabilidad, calculada bajo la nula, de obtener un resultado al menos tan extremo como el observado; un valor p pequeño indica que los datos serían inusuales si la nula fuera verdadera. Si el valor p cae por debajo del nivel de significación preespecificado, la nula se rechaza. Es crucial destacar que el valor p no es la probabilidad de que la nula sea verdadera, y no rechazarla no es una prueba de que la nula sea correcta. La significación estadística tampoco implica necesariamente un efecto significativo, razón por la cual el marco se interpreta junto con las estimaciones de efecto y los intervalos de confianza.
Clinical relevance
Las pruebas de hipótesis sustentan las conclusiones principales de la mayoría de los ensayos y estudios observacionales, por lo que comprender lo que significa y no significa un resultado significativo o no significativo es fundamental para la evaluación de la evidencia. Una mala interpretación de un valor p puede llevar a sobreestimar o subestimar los hallazgos. Esta entrada describe el procedimiento inferencial y no constituye una base para decisiones diagnósticas o de tratamiento individuales.
Evidence & guidelines
La preocupación por el uso mecánico de los umbrales de significación impulsó la declaración de 2016 de la American Statistical Association (Asociación Americana de Estadística) que clarifica la interpretación adecuada de los valores p, y la guía de Greenland y sus colegas sobre las interpretaciones erróneas comunes. Algunos metodólogos han propuesto reducir el umbral convencional para las afirmaciones de nuevos descubrimientos, mientras que otros argumentan en contra de cualquier umbral fijo, debates que siguen sin resolverse.
History
El marco fusiona las pruebas de significación y los valores p de Fisher con las pruebas de decisión teórica de Neyman y Pearson, formalizadas en 1933, que introdujeron tasas de error fijas y la prueba más potente. El híbrido que se convirtió en la práctica estándar de los libros de texto recibió críticas a lo largo del siglo XX, intensificándose en la década de 2010 en medio de preocupaciones sobre la reproducibilidad, lo que llevó a declaraciones de advertencia formales y propuestas para redefinir o abandonar los umbrales de significación fijos.
Debates
- El estado del umbral de significación de 0.05
- Los críticos argumentan que un umbral convencional fijo fomenta conclusiones dicotómicas, a veces engañosas; las propuestas van desde reducir el umbral para nuevas afirmaciones hasta abandonar los umbrales claros en favor de una interpretación continua de la evidencia.
Key figures
- Ronald A. Fisher
- Jerzy Neyman
- Egon Pearson
- Sander Greenland
- Ronald L. Wasserstein
Related topics
Seminal works
- neyman-pearson-1933
- wasserstein-lazar-2016
Frequently asked questions
- ¿Un valor p me indica la probabilidad de que la hipótesis nula sea verdadera?
- No. El valor p es la probabilidad de obtener datos al menos tan extremos como los observados asumiendo que la hipótesis nula es verdadera; no proporciona la probabilidad de que la nula en sí sea verdadera o falsa.
- ¿No rechazar la hipótesis nula prueba que no hay efecto?
- No. Un resultado no significativo significa que los datos no proporcionaron suficiente evidencia contra la nula, lo cual puede ocurrir simplemente porque el estudio era demasiado pequeño; la ausencia de evidencia no es evidencia de ausencia.