ScholarGate
Assistente

Regressão Logística

A regressão logística modela a probabilidade de um resultado binário (sim/não) em função de um ou mais preditores. Como as probabilidades são limitadas entre 0 e 1, o modelo opera na escala de log-odds, de modo que cada coeficiente corresponde a uma mudança nas log-odds e, quando exponenciado, a uma razão de chances. É o método de regressão padrão para resultados binários nas ciências da saúde.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A regressão logística modela as log-odds (logit) de um resultado binário como uma função linear de preditores, logit(P) = b0 + b1X1 + ... + bkXk, estimando os coeficientes por máxima verossimilhança de modo que o coeficiente exponenciado exp(bj) seja a razão de chances ajustada para o preditor Xj.

Scope

Esta entrada aborda o modelo logístico binário: a função de ligação logit e por que é utilizada, a interpretação dos coeficientes como razões de chances, a estimação por máxima verossimilhança, o ajuste para fatores de confusão e as preocupações práticas de tamanho da amostra (eventos por variável), separação e bondade do ajuste. Também observa a distinção entre razões de chances e razões de risco. É um tópico metodológico, não uma orientação clínica.

Core questions

  • Por que um resultado binário é modelado na escala de log-odds em vez de diretamente como uma probabilidade?
  • Como um coeficiente de regressão logística é interpretado como uma razão de chances?
  • Como os coeficientes são estimados e como o modelo ajusta para fatores de confusão?
  • Quantos eventos de resultado são necessários por preditor para estimativas estáveis?
  • Quando a razão de chances difere significativamente da razão de risco?

Key concepts

  • Função de ligação logit (log-odds)
  • Razão de chances como exp(coeficiente)
  • Estimação por máxima verossimilhança
  • Razão de chances ajustada versus bruta
  • Eventos por variável
  • Separação e separação quase completa
  • Bondade do ajuste e calibração
  • Razão de chances versus razão de risco

Mechanisms

Modelar uma probabilidade diretamente com um preditor linear é problemático porque as previsões poderiam cair fora do intervalo de 0 a 1; a função de ligação logit resolve isso transformando a probabilidade em suas log-odds, que é ilimitada e modelada linearmente. Os coeficientes são estimados por máxima verossimilhança em vez de mínimos quadrados, e cada coeficiente exponenciado é a razão de chances comparando as chances do resultado para uma diferença de uma unidade nesse preditor com os outros mantidos constantes. A estimação estável requer eventos de resultado suficientes em relação ao número de preditores; a orientação tradicional de cerca de dez eventos por variável foi examinada e parcialmente flexibilizada em trabalhos posteriores. Quando um preditor separa perfeitamente as classes de resultado, a máxima verossimilhança ordinária falha (separação), e abordagens penalizadas resolvem isso. Como o modelo estima razões de chances, estas podem superestimar a razão de risco quando o resultado é comum, o que motivou abordagens alternativas, como a regressão de Poisson modificada para estimar razões de risco diretamente.

Clinical relevance

A regressão logística sustenta uma grande parte das razões de chances ajustadas e dos modelos diagnósticos e prognósticos relatados em pesquisas clínicas e epidemiológicas. Compreender que seus coeficientes são razões de chances, e quando estes divergem das razões de risco, é central para a interpretação de tais estudos. Esta entrada descreve o método e não é uma base para decisões individuais de diagnóstico ou tratamento.

Epidemiology

A regressão logística é a análise natural para estudos de caso-controle, onde a razão de chances é a medida de associação estimável, e é amplamente utilizada em estudos de coorte e transversais para obter estimativas de efeito ajustadas para resultados binários. Quando o resultado é comum em uma coorte, a razão de chances se afasta da razão de risco, e os analistas podem preferir métodos que estimam a razão de risco diretamente.

Evidence & guidelines

O texto de Hosmer, Lemeshow e Sturdivant é uma referência padrão para o ajuste e avaliação de modelos logísticos. A comunicação de modelos de previsão construídos com regressão logística é abordada pela declaração TRIPOD, e estudos metodológicos informam a orientação sobre o tamanho da amostra, como eventos por variável.

History

A função logística tem raízes no século XIX no crescimento populacional, e seu uso para regressão binária foi desenvolvido em meados do século XX, com o trabalho de David Cox consolidando o método para a análise de dados binários. Tornou-se uma ferramenta fundamental da epidemiologia, especialmente para a análise de caso-controle, onde a razão de chances é a medida natural. A literatura metodológica subsequente abordou questões práticas, incluindo tamanho da amostra, separação e a divergência das razões de chances das razões de risco.

Debates

Quantos eventos de resultado são necessários por preditor?
Uma regra de longa data de cerca de dez eventos por variável foi apoiada por trabalhos de simulação, mas estudos posteriores argumentaram que a regra é conservadora e dependente do contexto, de modo que menos eventos podem ser suficientes em alguns casos, enquanto mais podem ser necessários em outros.
A razão de chances deve ser usada quando o resultado é comum?
Quando um resultado é comum, a razão de chances superestima a razão de risco e pode ser mal interpretada como um risco relativo; alternativas como a regressão de Poisson modificada estimam a razão de risco diretamente e foram propostas para estudos prospectivos com resultados binários.

Key figures

  • David Cox
  • David Hosmer
  • Stanley Lemeshow
  • Peter Peduzzi
  • Eric Vittinghoff

Related topics

Seminal works

  • hosmer-2013
  • peduzzi-1996

Frequently asked questions

Por que a regressão logística relata razões de chances?
Como o modelo é linear na escala de log-odds, cada coeficiente representa uma mudança nas log-odds, e exponenciá-lo resulta em uma razão de chances. A razão de chances é, portanto, a medida de efeito natural que o modelo produz para um resultado binário.
Quando uma razão de chances é uma má aproximação da razão de risco?
Quando o resultado é comum, a razão de chances diverge e superestima a razão de risco. Nessa situação, uma razão de chances pode induzir a erro se interpretada como um risco relativo, e métodos que estimam a razão de risco diretamente podem ser preferíveis.

Methods for this concept

Related concepts