¿Por qué la regresión logística informa razones de probabilidades?

Debido a que el modelo es lineal en la escala de log-odds, cada coeficiente representa un cambio en el logaritmo de las probabilidades, y al exponenciarlo se obtiene una razón de probabilidades. Por lo tanto, la razón de probabilidades es la medida de efecto natural que el modelo produce para un resultado binario.

¿Cuándo es una razón de probabilidades una mala aproximación a la razón de riesgo?

Cuando el resultado es común, la razón de probabilidades diverge y sobrestima la razón de riesgo. En esa situación, una razón de probabilidades puede inducir a error si se interpreta como un riesgo relativo, y los métodos que estiman la razón de riesgo directamente pueden ser preferibles.

Regresión logística

La regresión logística modela la probabilidad de un resultado binario (sí/no) en función de uno o más predictores. Dado que las probabilidades están acotadas entre 0 y 1, el modelo opera en la escala de log-odds (logaritmo de las probabilidades), de modo que cada coeficiente corresponde a un cambio en el logaritmo de las probabilidades y, al ser exponenciado, se convierte en una razón de probabilidades (odds ratio). Es el método de regresión estándar para resultados binarios en las ciencias de la salud.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La regresión logística modela el logaritmo de las probabilidades (logit) de un resultado binario como una función lineal de los predictores, logit(P) = b0 + b1X1 + ... + bkXk, estimando los coeficientes por máxima verosimilitud de modo que el coeficiente exponenciado exp(bj) es la razón de probabilidades ajustada para el predictor Xj.

Scope

Esta entrada aborda el modelo logístico binario: el enlace logit y su justificación, la interpretación de los coeficientes como razones de probabilidades, la estimación por máxima verosimilitud, el ajuste por factores de confusión (confounders), y las consideraciones prácticas relativas al tamaño muestral (eventos por variable), la separación y la bondad de ajuste. También se señala la distinción entre razones de probabilidades y razones de riesgo. Es un tema metodológico, no una guía clínica.

Core questions

¿Por qué se modela un resultado binario en la escala de log-odds en lugar de directamente como una probabilidad?
¿Cómo se interpreta un coeficiente de regresión logística como una razón de probabilidades?
¿Cómo se estiman los coeficientes y cómo ajusta el modelo por factores de confusión?
¿Cuántos eventos del resultado se necesitan por predictor para obtener estimaciones estables?
¿Cuándo difiere significativamente la razón de probabilidades de la razón de riesgo?

Key concepts

Función de enlace logit (logaritmo de las probabilidades)
Razón de probabilidades como exp(coeficiente)
Estimación por máxima verosimilitud
Razón de probabilidades ajustada versus cruda
Eventos por variable
Separación y separación cuasi-completa
Bondad de ajuste y calibración
Razón de probabilidades versus razón de riesgo

Mechanisms

Modelar una probabilidad directamente con un predictor lineal es problemático porque las predicciones podrían caer fuera del rango de 0 a 1; el enlace logit resuelve esto transformando la probabilidad a su logaritmo de las probabilidades, que no está acotado y se modela linealmente. Los coeficientes se estiman por máxima verosimilitud en lugar de por mínimos cuadrados, y cada coeficiente exponenciado es la razón de probabilidades que compara las probabilidades del resultado para una diferencia de una unidad en ese predictor, manteniendo los demás constantes. La estimación estable requiere suficientes eventos del resultado en relación con el número de predictores; la guía tradicional de aproximadamente diez eventos por variable ha sido examinada y parcialmente flexibilizada en trabajos posteriores. Cuando un predictor separa perfectamente las clases de resultados, la estimación por máxima verosimilitud ordinaria falla (separación), y los enfoques penalizados lo abordan. Dado que el modelo estima razones de probabilidades, estas pueden sobrestimar la razón de riesgo cuando el resultado es común, lo que ha motivado enfoques alternativos como la regresión de Poisson modificada para estimar las razones de riesgo directamente.

Clinical relevance

La regresión logística subyace a una gran parte de las razones de probabilidades ajustadas y los modelos diagnósticos y pronósticos reportados en la investigación clínica y epidemiológica. Comprender que sus coeficientes son razones de probabilidades, y cuándo estas divergen de las razones de riesgo, es fundamental para interpretar dichos estudios. Esta entrada describe el método y no constituye una base para decisiones individuales de diagnóstico o tratamiento.

Epidemiology

La regresión logística es el análisis natural para estudios de casos y controles, donde la razón de probabilidades es la medida de asociación estimable, y es ampliamente utilizada en estudios de cohortes y transversales para obtener estimaciones de efecto ajustadas para resultados binarios. Cuando el resultado es común en una cohorte, la razón de probabilidades se desvía de la razón de riesgo, y los analistas pueden preferir métodos que estimen la razón de riesgo directamente.

Evidence & guidelines

El texto de Hosmer, Lemeshow y Sturdivant es una referencia estándar para el ajuste y la evaluación de modelos logísticos. La notificación de modelos de predicción construidos con regresión logística está cubierta por la declaración TRIPOD, y los estudios metodológicos informan las guías de tamaño muestral, como los eventos por variable.

History

La función logística tiene sus raíces en el siglo XIX en el crecimiento poblacional, y su uso para la regresión binaria se desarrolló a mediados del siglo XX, con el trabajo de David Cox consolidando el método para el análisis de datos binarios. Se convirtió en una herramienta fundamental de la epidemiología, especialmente para el análisis de casos y controles, donde la razón de probabilidades es la medida natural. La literatura metodológica posterior abordó cuestiones prácticas, incluyendo el tamaño muestral, la separación y la divergencia de las razones de probabilidades respecto a las razones de riesgo.

Debates

¿Cuántos eventos del resultado se necesitan por predictor?: Una regla de larga data de aproximadamente diez eventos por variable fue respaldada por trabajos de simulación, pero estudios posteriores argumentaron que la regla es conservadora y dependiente del contexto, de modo que a veces pueden ser suficientes menos eventos, mientras que en otros casos pueden ser necesarios más.
¿Debería usarse la razón de probabilidades cuando el resultado es común?: Cuando un resultado es común, la razón de probabilidades sobrestima la razón de riesgo y puede ser malinterpretada como un riesgo relativo; se han propuesto alternativas como la regresión de Poisson modificada para estimar la razón de riesgo directamente en estudios prospectivos con resultados binarios.

Key figures

David Cox
David Hosmer
Stanley Lemeshow
Peter Peduzzi
Eric Vittinghoff

Seminal works

hosmer-2013
peduzzi-1996

Frequently asked questions

¿Por qué la regresión logística informa razones de probabilidades?: Debido a que el modelo es lineal en la escala de log-odds, cada coeficiente representa un cambio en el logaritmo de las probabilidades, y al exponenciarlo se obtiene una razón de probabilidades. Por lo tanto, la razón de probabilidades es la medida de efecto natural que el modelo produce para un resultado binario.
¿Cuándo es una razón de probabilidades una mala aproximación a la razón de riesgo?: Cuando el resultado es común, la razón de probabilidades diverge y sobrestima la razón de riesgo. En esa situación, una razón de probabilidades puede inducir a error si se interpreta como un riesgo relativo, y los métodos que estiman la razón de riesgo directamente pueden ser preferibles.