Regressão e Correlação
Regressão e correlação são as ferramentas bioestatísticas centrais para quantificar como as variáveis se relacionam entre si. A correlação mede a força e a direção da associação entre duas quantidades, enquanto a regressão modela como um resultado muda à medida que uma ou mais variáveis explicativas mudam, apoiando tanto a explicação quanto a previsão. Juntas, elas sustentam a maior parte da análise multivariada relatada nas ciências da saúde.
Definition
Regressão e correlação compreendem os métodos estatísticos que resumem a associação entre variáveis (correlação e covariância) e que estimam uma função que relaciona um resultado a uma ou mais variáveis explicativas (regressão), de modo que o resultado possa ser explicado, ajustado para confundidores ou previsto.
Scope
Esta área orienta o leitor através da família de métodos usados para descrever a associação e modelar resultados a partir de preditores: correlação e covariância, regressão linear simples e múltipla para resultados contínuos, regressão logística para resultados binários, e as preocupações transversais de seleção e diagnóstico de modelos. É um mapa metodológico em vez de uma orientação clínica, e se conecta às entradas de tópicos individuais onde cada método é desenvolvido em detalhes.
Sub-topics
Core questions
- Quão fortemente, e em que direção, duas variáveis estão associadas?
- Como um resultado muda à medida que uma variável explicativa muda, mantendo outras variáveis constantes?
- Qual forma de modelo (linear, logístico ou outra) corresponde ao tipo de resultado sendo analisado?
- Como os coeficientes de regressão são interpretados como efeitos ou como previsões?
- Como um modelo ajustado é verificado, selecionado e impedido de superajustar?
Key concepts
- Covariância e o coeficiente de correlação
- Estimação por mínimos quadrados
- Coeficiente de regressão (inclinação) e intercepto
- Ajuste e controle de confundimento através de regressão múltipla
- Função de ligação e a estrutura do modelo linear generalizado
- Previsão versus explicação
- Superajuste e validação de modelo
- Resíduos e diagnósticos de modelo
Mechanisms
A correlação reduz a variação conjunta de duas variáveis (sua covariância) a um coeficiente sem escala entre -1 e +1. A regressão vai além, ajustando uma função — na maioria das vezes uma linha ou uma soma de preditores ponderados — que descreve o valor esperado de um resultado dados os preditores. A regressão linear estima essa função para resultados contínuos por mínimos quadrados; modelos logísticos e outros modelos lineares generalizados estendem a mesma ideia para tipos de resultados binários, de contagem e outros, através de uma função de ligação que conecta o preditor linear à escala do resultado. Em todos esses, os coeficientes carregam a interpretação substantiva, e os diagnósticos verificam se as suposições que justificam essa interpretação são válidas.
Clinical relevance
A maioria dos achados quantitativos na pesquisa clínica e em saúde pública — associações ajustadas, fatores de risco, relações dose-resposta e modelos de previsão — são produzidos por regressão. Compreender como esses modelos são construídos e interpretados faz parte da avaliação crítica da literatura. Esta área descreve como tal evidência é gerada e não é uma base para decisões individuais de diagnóstico ou tratamento.
Evidence & guidelines
As diretrizes de relato para estudos baseados em regressão incluem a declaração STROBE para estudos observacionais e a declaração TRIPOD para estudos de modelos de previsão; tratamentos de livros didáticos padrão, como Harrell e Vittinghoff e colegas, estabelecem a estratégia de modelagem recomendada. Comentários metodológicos alertam contra práticas evitáveis, como a dicotomização de preditores contínuos, que descarta informações e pode distorcer os efeitos estimados.
History
Correlação e regressão originam-se nos estudos de hereditariedade de Francis Galton no final do século XIX, onde ele descreveu a 'regressão à média', e foram formalizadas por Karl Pearson. O século XX estendeu o modelo linear a múltiplos preditores, e a estrutura do modelo linear generalizado posteriormente unificou modelos lineares, logísticos e relacionados. Na bioestatística, esses métodos tornaram-se o aparato padrão para análise ajustada e previsão de risco.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- Qual é a diferença entre correlação e regressão?
- A correlação resume a força e a direção da associação entre duas variáveis em um único coeficiente simétrico, enquanto a regressão modela como um resultado depende de um ou mais preditores e produz coeficientes que podem ser usados para ajuste ou previsão. A correlação não distingue resultado de preditor; a regressão sim.
- Qual modelo de regressão deve ser usado?
- A escolha segue o tipo de resultado: regressão linear para um resultado contínuo, regressão logística para um resultado binário e outros modelos lineares generalizados ou de sobrevivência para contagens ou dados de tempo até o evento. As entradas de tópicos individuais descrevem cada um em detalhes.