Regresión y Correlación
La regresión y la correlación son las herramientas bioestadísticas fundamentales para cuantificar cómo se relacionan las variables entre sí. La correlación mide la fuerza y la dirección de la asociación entre dos cantidades, mientras que la regresión modela cómo cambia un resultado a medida que una o más variables explicativas cambian, apoyando tanto la explicación como la predicción. Juntas, sustentan la mayor parte del análisis multivariable reportado en las ciencias de la salud.
Definition
La regresión y la correlación comprenden los métodos estadísticos que resumen la asociación entre variables (correlación y covarianza) y que estiman una función que relaciona un resultado con una o más variables explicativas (regresión), de modo que el resultado pueda ser explicado, ajustado por factores de confusión (confounders), o predicho.
Scope
Esta área orienta al lector a través de la familia de métodos utilizados para describir la asociación y modelar resultados a partir de predictores: correlación y covarianza, regresión lineal simple y múltiple para resultados continuos, regresión logística para resultados binarios, y las preocupaciones transversales de selección y diagnóstico de modelos. Es un mapa metodológico más que una guía clínica, y enlaza con las entradas de temas individuales donde cada método se desarrolla en detalle.
Sub-topics
Core questions
- ¿Qué tan fuerte es la asociación entre dos variables y en qué dirección?
- ¿Cómo cambia un resultado a medida que cambia una variable explicativa, manteniendo constantes otras variables?
- ¿Qué forma de modelo (lineal, logístico u otra) coincide con el tipo de resultado que se analiza?
- ¿Cómo se interpretan los coeficientes de regresión como efectos o como predicciones?
- ¿Cómo se verifica, selecciona y evita el sobreajuste (overfitting) de un modelo ajustado?
Key concepts
- Covarianza y coeficiente de correlación
- Estimación por mínimos cuadrados
- Coeficiente de regresión (pendiente) e intercepto
- Ajuste y control de factores de confusión (confounding) mediante regresión múltiple
- Función de enlace y el marco del modelo lineal generalizado
- Predicción versus explicación
- Sobreajuste (overfitting) y validación del modelo
- Residuos y diagnósticos del modelo
Mechanisms
La correlación reduce la variación conjunta de dos variables (su covarianza) a un coeficiente sin escala entre -1 y +1. La regresión va más allá al ajustar una función —con mayor frecuencia una línea o una suma de predictores ponderados— que describe el valor esperado de un resultado dados los predictores. La regresión lineal estima esta función para resultados continuos mediante mínimos cuadrados; los modelos logísticos y otros modelos lineales generalizados extienden la misma idea a resultados binarios, de recuento y de otros tipos a través de una función de enlace que conecta el predictor lineal con la escala del resultado. En todos ellos, los coeficientes conllevan la interpretación sustantiva, y los diagnósticos verifican si se cumplen los supuestos que justifican esa interpretación.
Clinical relevance
La mayoría de los hallazgos cuantitativos en la investigación clínica y de salud pública —asociaciones ajustadas, factores de riesgo, relaciones dosis-respuesta y modelos de predicción— se producen mediante regresión. Comprender cómo se construyen e interpretan estos modelos es parte de la evaluación crítica de la literatura. Esta área describe cómo se genera dicha evidencia y no es una base para decisiones individuales de diagnóstico o tratamiento.
Evidence & guidelines
Las guías de reporte para estudios basados en regresión incluyen la declaración STROBE para estudios observacionales y la declaración TRIPOD para estudios de modelos de predicción; tratamientos estándar en libros de texto como los de Harrell y Vittinghoff y colegas establecen la estrategia de modelado recomendada. Los comentarios metodológicos advierten contra prácticas evitables como la dicotomización de predictores continuos, que descarta información y puede distorsionar los efectos estimados.
History
La correlación y la regresión tienen su origen en los estudios de herencia de Francis Galton a finales del siglo XIX, donde describió la 'regresión a la media', y fueron formalizadas por Karl Pearson. El siglo XX extendió el modelo lineal a múltiples predictores, y el marco del modelo lineal generalizado unificó posteriormente los modelos lineales, logísticos y relacionados. En bioestadística, estos métodos se convirtieron en el aparato estándar para el análisis ajustado y la predicción de riesgos.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- ¿Cuál es la diferencia entre correlación y regresión?
- La correlación resume la fuerza y la dirección de la asociación entre dos variables en un único coeficiente simétrico, mientras que la regresión modela cómo un resultado depende de uno o más predictores y produce coeficientes que pueden usarse para ajuste o predicción. La correlación no distingue el resultado del predictor; la regresión sí lo hace.
- ¿Qué modelo de regresión se debe utilizar?
- La elección sigue el tipo de resultado: regresión lineal para un resultado continuo, regresión logística para un resultado binario, y otros modelos lineales generalizados o de supervivencia para recuentos o datos de tiempo hasta el evento. Las entradas de temas individuales describen cada uno en detalle.