Regressão Logística
A regressão logística modela a probabilidade de um resultado binário (sim/não) em função de um ou mais preditores. Como as probabilidades são limitadas entre 0 e 1, o modelo opera na escala de log-odds, de modo que cada coeficiente corresponde a uma mudança nas log-odds e, quando exponenciado, a uma razão de chances. É o método de regressão padrão para resultados binários nas ciências da saúde.
Definition
A regressão logística modela as log-odds (logit) de um resultado binário como uma função linear de preditores, logit(P) = b0 + b1X1 + ... + bkXk, estimando os coeficientes por máxima verossimilhança de modo que o coeficiente exponenciado exp(bj) seja a razão de chances ajustada para o preditor Xj.
Scope
Esta entrada aborda o modelo logístico binário: a função de ligação logit e por que é utilizada, a interpretação dos coeficientes como razões de chances, a estimação por máxima verossimilhança, o ajuste para fatores de confusão e as preocupações práticas de tamanho da amostra (eventos por variável), separação e bondade do ajuste. Também observa a distinção entre razões de chances e razões de risco. É um tópico metodológico, não uma orientação clínica.
Core questions
- Por que um resultado binário é modelado na escala de log-odds em vez de diretamente como uma probabilidade?
- Como um coeficiente de regressão logística é interpretado como uma razão de chances?
- Como os coeficientes são estimados e como o modelo ajusta para fatores de confusão?
- Quantos eventos de resultado são necessários por preditor para estimativas estáveis?
- Quando a razão de chances difere significativamente da razão de risco?
Key concepts
- Função de ligação logit (log-odds)
- Razão de chances como exp(coeficiente)
- Estimação por máxima verossimilhança
- Razão de chances ajustada versus bruta
- Eventos por variável
- Separação e separação quase completa
- Bondade do ajuste e calibração
- Razão de chances versus razão de risco
Mechanisms
Modelar uma probabilidade diretamente com um preditor linear é problemático porque as previsões poderiam cair fora do intervalo de 0 a 1; a função de ligação logit resolve isso transformando a probabilidade em suas log-odds, que é ilimitada e modelada linearmente. Os coeficientes são estimados por máxima verossimilhança em vez de mínimos quadrados, e cada coeficiente exponenciado é a razão de chances comparando as chances do resultado para uma diferença de uma unidade nesse preditor com os outros mantidos constantes. A estimação estável requer eventos de resultado suficientes em relação ao número de preditores; a orientação tradicional de cerca de dez eventos por variável foi examinada e parcialmente flexibilizada em trabalhos posteriores. Quando um preditor separa perfeitamente as classes de resultado, a máxima verossimilhança ordinária falha (separação), e abordagens penalizadas resolvem isso. Como o modelo estima razões de chances, estas podem superestimar a razão de risco quando o resultado é comum, o que motivou abordagens alternativas, como a regressão de Poisson modificada para estimar razões de risco diretamente.
Clinical relevance
A regressão logística sustenta uma grande parte das razões de chances ajustadas e dos modelos diagnósticos e prognósticos relatados em pesquisas clínicas e epidemiológicas. Compreender que seus coeficientes são razões de chances, e quando estes divergem das razões de risco, é central para a interpretação de tais estudos. Esta entrada descreve o método e não é uma base para decisões individuais de diagnóstico ou tratamento.
Epidemiology
A regressão logística é a análise natural para estudos de caso-controle, onde a razão de chances é a medida de associação estimável, e é amplamente utilizada em estudos de coorte e transversais para obter estimativas de efeito ajustadas para resultados binários. Quando o resultado é comum em uma coorte, a razão de chances se afasta da razão de risco, e os analistas podem preferir métodos que estimam a razão de risco diretamente.
Evidence & guidelines
O texto de Hosmer, Lemeshow e Sturdivant é uma referência padrão para o ajuste e avaliação de modelos logísticos. A comunicação de modelos de previsão construídos com regressão logística é abordada pela declaração TRIPOD, e estudos metodológicos informam a orientação sobre o tamanho da amostra, como eventos por variável.
History
A função logística tem raízes no século XIX no crescimento populacional, e seu uso para regressão binária foi desenvolvido em meados do século XX, com o trabalho de David Cox consolidando o método para a análise de dados binários. Tornou-se uma ferramenta fundamental da epidemiologia, especialmente para a análise de caso-controle, onde a razão de chances é a medida natural. A literatura metodológica subsequente abordou questões práticas, incluindo tamanho da amostra, separação e a divergência das razões de chances das razões de risco.
Debates
- Quantos eventos de resultado são necessários por preditor?
- Uma regra de longa data de cerca de dez eventos por variável foi apoiada por trabalhos de simulação, mas estudos posteriores argumentaram que a regra é conservadora e dependente do contexto, de modo que menos eventos podem ser suficientes em alguns casos, enquanto mais podem ser necessários em outros.
- A razão de chances deve ser usada quando o resultado é comum?
- Quando um resultado é comum, a razão de chances superestima a razão de risco e pode ser mal interpretada como um risco relativo; alternativas como a regressão de Poisson modificada estimam a razão de risco diretamente e foram propostas para estudos prospectivos com resultados binários.
Key figures
- David Cox
- David Hosmer
- Stanley Lemeshow
- Peter Peduzzi
- Eric Vittinghoff
Related topics
Seminal works
- hosmer-2013
- peduzzi-1996
Frequently asked questions
- Por que a regressão logística relata razões de chances?
- Como o modelo é linear na escala de log-odds, cada coeficiente representa uma mudança nas log-odds, e exponenciá-lo resulta em uma razão de chances. A razão de chances é, portanto, a medida de efeito natural que o modelo produz para um resultado binário.
- Quando uma razão de chances é uma má aproximação da razão de risco?
- Quando o resultado é comum, a razão de chances diverge e superestima a razão de risco. Nessa situação, uma razão de chances pode induzir a erro se interpretada como um risco relativo, e métodos que estimam a razão de risco diretamente podem ser preferíveis.