Por que a regressão logística relata razões de chances?

Como o modelo é linear na escala de log-odds, cada coeficiente representa uma mudança nas log-odds, e exponenciá-lo resulta em uma razão de chances. A razão de chances é, portanto, a medida de efeito natural que o modelo produz para um resultado binário.

Quando uma razão de chances é uma má aproximação da razão de risco?

Quando o resultado é comum, a razão de chances diverge e superestima a razão de risco. Nessa situação, uma razão de chances pode induzir a erro se interpretada como um risco relativo, e métodos que estimam a razão de risco diretamente podem ser preferíveis.

Regressão Logística

A regressão logística modela a probabilidade de um resultado binário (sim/não) em função de um ou mais preditores. Como as probabilidades são limitadas entre 0 e 1, o modelo opera na escala de log-odds, de modo que cada coeficiente corresponde a uma mudança nas log-odds e, quando exponenciado, a uma razão de chances. É o método de regressão padrão para resultados binários nas ciências da saúde.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A regressão logística modela as log-odds (logit) de um resultado binário como uma função linear de preditores, logit(P) = b0 + b1X1 + ... + bkXk, estimando os coeficientes por máxima verossimilhança de modo que o coeficiente exponenciado exp(bj) seja a razão de chances ajustada para o preditor Xj.

Scope

Esta entrada aborda o modelo logístico binário: a função de ligação logit e por que é utilizada, a interpretação dos coeficientes como razões de chances, a estimação por máxima verossimilhança, o ajuste para fatores de confusão e as preocupações práticas de tamanho da amostra (eventos por variável), separação e bondade do ajuste. Também observa a distinção entre razões de chances e razões de risco. É um tópico metodológico, não uma orientação clínica.

Core questions

Por que um resultado binário é modelado na escala de log-odds em vez de diretamente como uma probabilidade?
Como um coeficiente de regressão logística é interpretado como uma razão de chances?
Como os coeficientes são estimados e como o modelo ajusta para fatores de confusão?
Quantos eventos de resultado são necessários por preditor para estimativas estáveis?
Quando a razão de chances difere significativamente da razão de risco?

Key concepts

Função de ligação logit (log-odds)
Razão de chances como exp(coeficiente)
Estimação por máxima verossimilhança
Razão de chances ajustada versus bruta
Eventos por variável
Separação e separação quase completa
Bondade do ajuste e calibração
Razão de chances versus razão de risco

Mechanisms

Modelar uma probabilidade diretamente com um preditor linear é problemático porque as previsões poderiam cair fora do intervalo de 0 a 1; a função de ligação logit resolve isso transformando a probabilidade em suas log-odds, que é ilimitada e modelada linearmente. Os coeficientes são estimados por máxima verossimilhança em vez de mínimos quadrados, e cada coeficiente exponenciado é a razão de chances comparando as chances do resultado para uma diferença de uma unidade nesse preditor com os outros mantidos constantes. A estimação estável requer eventos de resultado suficientes em relação ao número de preditores; a orientação tradicional de cerca de dez eventos por variável foi examinada e parcialmente flexibilizada em trabalhos posteriores. Quando um preditor separa perfeitamente as classes de resultado, a máxima verossimilhança ordinária falha (separação), e abordagens penalizadas resolvem isso. Como o modelo estima razões de chances, estas podem superestimar a razão de risco quando o resultado é comum, o que motivou abordagens alternativas, como a regressão de Poisson modificada para estimar razões de risco diretamente.

Clinical relevance

A regressão logística sustenta uma grande parte das razões de chances ajustadas e dos modelos diagnósticos e prognósticos relatados em pesquisas clínicas e epidemiológicas. Compreender que seus coeficientes são razões de chances, e quando estes divergem das razões de risco, é central para a interpretação de tais estudos. Esta entrada descreve o método e não é uma base para decisões individuais de diagnóstico ou tratamento.

Epidemiology

A regressão logística é a análise natural para estudos de caso-controle, onde a razão de chances é a medida de associação estimável, e é amplamente utilizada em estudos de coorte e transversais para obter estimativas de efeito ajustadas para resultados binários. Quando o resultado é comum em uma coorte, a razão de chances se afasta da razão de risco, e os analistas podem preferir métodos que estimam a razão de risco diretamente.

Evidence & guidelines

O texto de Hosmer, Lemeshow e Sturdivant é uma referência padrão para o ajuste e avaliação de modelos logísticos. A comunicação de modelos de previsão construídos com regressão logística é abordada pela declaração TRIPOD, e estudos metodológicos informam a orientação sobre o tamanho da amostra, como eventos por variável.

History

A função logística tem raízes no século XIX no crescimento populacional, e seu uso para regressão binária foi desenvolvido em meados do século XX, com o trabalho de David Cox consolidando o método para a análise de dados binários. Tornou-se uma ferramenta fundamental da epidemiologia, especialmente para a análise de caso-controle, onde a razão de chances é a medida natural. A literatura metodológica subsequente abordou questões práticas, incluindo tamanho da amostra, separação e a divergência das razões de chances das razões de risco.

Debates

Quantos eventos de resultado são necessários por preditor?: Uma regra de longa data de cerca de dez eventos por variável foi apoiada por trabalhos de simulação, mas estudos posteriores argumentaram que a regra é conservadora e dependente do contexto, de modo que menos eventos podem ser suficientes em alguns casos, enquanto mais podem ser necessários em outros.
A razão de chances deve ser usada quando o resultado é comum?: Quando um resultado é comum, a razão de chances superestima a razão de risco e pode ser mal interpretada como um risco relativo; alternativas como a regressão de Poisson modificada estimam a razão de risco diretamente e foram propostas para estudos prospectivos com resultados binários.

Key figures

David Cox
David Hosmer
Stanley Lemeshow
Peter Peduzzi
Eric Vittinghoff

Seminal works

hosmer-2013
peduzzi-1996

Frequently asked questions

Por que a regressão logística relata razões de chances?: Como o modelo é linear na escala de log-odds, cada coeficiente representa uma mudança nas log-odds, e exponenciá-lo resulta em uma razão de chances. A razão de chances é, portanto, a medida de efeito natural que o modelo produz para um resultado binário.
Quando uma razão de chances é uma má aproximação da razão de risco?: Quando o resultado é comum, a razão de chances diverge e superestima a razão de risco. Nessa situação, uma razão de chances pode induzir a erro se interpretada como um risco relativo, e métodos que estimam a razão de risco diretamente podem ser preferíveis.