¿Por qué se utiliza la regresión múltiple para controlar la confusión?

Debido a que cada coeficiente estima el efecto de su predictor mientras los otros predictores en el modelo se mantienen constantes, incluir una variable de confusión como predictor ajusta el efecto estimado de la exposición de interés por esa variable de confusión.

¿Qué es la multicolinealidad y por qué es importante?

La multicolinealidad es una fuerte correlación entre los predictores. Hace que las estimaciones de los coeficientes individuales sean inestables y difíciles de interpretar, con errores estándar inflados, aunque la precisión predictiva general del modelo puede no verse afectada.

Regresión Lineal Múltiple

La regresión lineal múltiple extiende el modelo de línea recta a varias variables explicativas simultáneamente, modelando un resultado continuo como una suma ponderada de predictores más una intersección. Cada coeficiente estima el efecto de su predictor manteniendo los demás constantes, lo que convierte al modelo en la herramienta estándar para ajustar una asociación por variables de confusión y para construir predicciones multivariables.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La regresión lineal múltiple ajusta E(Y) = b0 + b1X1 + b2X2 + ... + bkXk para un resultado continuo Y, estimando los coeficientes por mínimos cuadrados de modo que cada bj cuantifica el cambio promedio en Y por cada aumento de una unidad en Xj mientras los otros predictores se mantienen constantes.

Scope

Esta entrada cubre el modelo lineal multivariable: la interpretación de cada coeficiente como un efecto ajustado, el manejo de predictores categóricos e interacciones, las preocupaciones adicionales introducidas por varios predictores (colinealidad, sobreajuste y cómo se eligen los predictores), y los mismos supuestos basados en residuos que el modelo simple. Es un tema metodológico, no una guía clínica.

Core questions

¿Qué significa interpretar un coeficiente 'manteniendo las otras variables constantes'?
¿Cómo ajusta la regresión múltiple una asociación por variables de confusión?
¿Cómo se representan los predictores categóricos y las interacciones en el modelo?
¿Qué problemas causan la colinealidad y el exceso de predictores?
¿Cómo se equilibra el número de predictores con el tamaño de la muestra para evitar el sobreajuste?

Key concepts

Coeficiente de regresión ajustado (parcial)
Control de la confusión mediante ajuste
Codificación dummy de predictores categóricos
Términos de interacción (modificación del efecto)
Multicolinealidad
Sobreajuste y eventos/observaciones por predictor
R cuadrado del modelo y R cuadrado ajustado
Linealidad, independencia, varianza constante, errores normales

Mechanisms

El modelo expresa el resultado medio como una intersección más una suma ponderada de predictores, con los pesos (coeficientes) estimados por mínimos cuadrados. Cada coeficiente es un efecto parcial: el cambio esperado en el resultado por unidad de cambio en ese predictor con los demás fijos, lo cual es el mecanismo por el cual la regresión ajusta por variables de confusión (confounding). Los predictores categóricos se introducen como variables indicadoras (dummy), y los términos de interacción permiten que el efecto de un predictor dependa de otro. Cuando los predictores están fuertemente correlacionados (multicolinealidad), los coeficientes individuales se vuelven inestables y difíciles de interpretar, aunque la predicción general puede no verse afectada. Incluir demasiados predictores en relación con el tamaño de la muestra conduce al sobreajuste (overfitting), donde el modelo captura ruido y se desempeña mal con datos nuevos; esto motiva a limitar los predictores en relación con el tamaño de la muestra y a validar el modelo.

Clinical relevance

La regresión lineal múltiple produce la mayoría de las asociaciones ajustadas reportadas para resultados continuos en la investigación clínica y de salud pública y es un componente fundamental del trabajo de predicción de riesgos. Saber cómo se interpretan sus coeficientes y cómo se controla la confusión es fundamental para evaluar dichos estudios. Esta entrada describe el método y no constituye una base para decisiones individuales de diagnóstico o tratamiento.

Evidence & guidelines

Textos estándar como los de Kutner y colaboradores y Harrell establecen la estrategia de modelado recomendada, y el trabajo metodológico advierte contra prácticas evitables, en particular la dicotomización de predictores continuos, que descarta información y puede sesgar las estimaciones. La notificación de modelos de predicción está cubierta por la declaración TRIPOD.

History

La extensión multivariable del modelo lineal se desarrolló a través del trabajo de principios del siglo XX de Pearson, Fisher y otros, quienes establecieron la estimación por mínimos cuadrados y la inferencia para varios predictores. En bioestadística, el modelo se convirtió en el método estándar para ajustar asociaciones por variables de confusión, y la literatura metodológica posterior se centró en cómo deben seleccionarse los predictores y cómo el sobreajuste y la dicotomización distorsionan los resultados.

Debates

¿Deben dicotomizarse los predictores continuos en un modelo de regresión?: Dividir un predictor continuo en un punto de corte descarta información, reduce la potencia y puede distorsionar la relación estimada; los metodólogos argumentan que los predictores continuos generalmente deben mantenerse continuos, modelando la no linealidad de manera flexible en lugar de eliminarla mediante la categorización.

Key figures

Karl Pearson
Ronald A. Fisher
Frank Harrell
Douglas Altman
Patrick Royston

Seminal works

altman-royston-2006-cost
harrell-2015

Frequently asked questions

¿Por qué se utiliza la regresión múltiple para controlar la confusión?: Debido a que cada coeficiente estima el efecto de su predictor mientras los otros predictores en el modelo se mantienen constantes, incluir una variable de confusión como predictor ajusta el efecto estimado de la exposición de interés por esa variable de confusión.
¿Qué es la multicolinealidad y por qué es importante?: La multicolinealidad es una fuerte correlación entre los predictores. Hace que las estimaciones de los coeficientes individuales sean inestables y difíciles de interpretar, con errores estándar inflados, aunque la precisión predictiva general del modelo puede no verse afectada.