ScholarGate
Ассистент

Регрессия и корреляция

Регрессия и корреляция являются основными биостатистическими инструментами для количественной оценки взаимосвязи между переменными. Корреляция измеряет силу и направление связи между двумя величинами, в то время как регрессия моделирует изменение результата при изменении одной или нескольких объясняющих переменных, поддерживая как объяснение, так и прогнозирование. Вместе они лежат в основе большинства многомерных анализов, представленных в науках о здоровье.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Регрессия и корреляция включают статистические методы, которые суммируют связь между переменными (корреляция и ковариация) и которые оценивают функцию, связывающую результат с одной или несколькими объясняющими переменными (регрессия), так что результат может быть объяснен, скорректирован с учетом вмешивающихся факторов или предсказан.

Scope

Эта область ориентирует читателя в семействе методов, используемых для описания ассоциации и моделирования результатов на основе предикторов: корреляция и ковариация, простая и множественная линейная регрессия для непрерывных результатов, логистическая регрессия для бинарных результатов, а также сквозные вопросы выбора модели и диагностики. Это скорее методологическая карта, чем клиническое руководство, и она содержит ссылки на отдельные тематические статьи, где каждый метод подробно разработан.

Sub-topics

Core questions

  • Насколько сильно и в каком направлении связаны две переменные?
  • Как изменяется результат при изменении объясняющей переменной, при сохранении других переменных постоянными?
  • Какая форма модели (линейная, логистическая или другая) соответствует типу анализируемого результата?
  • Как интерпретируются коэффициенты регрессии как эффекты или как прогнозы?
  • Как проверяется, выбирается и предотвращается переобучение подогнанной модели?

Key concepts

  • Ковариация и коэффициент корреляции
  • Оценка методом наименьших квадратов
  • Коэффициент регрессии (наклон) и свободный член
  • Корректировка и контроль вмешивающихся факторов с помощью множественной регрессии
  • Связующая функция и структура обобщенной линейной модели
  • Прогнозирование против объяснения
  • Переобучение и валидация модели
  • Остатки и диагностика модели

Mechanisms

Корреляция сводит совместную вариацию двух переменных (их ковариацию) к безразмерному коэффициенту в диапазоне от -1 до +1. Регрессия идет дальше, подбирая функцию — чаще всего линию или сумму взвешенных предикторов, — которая описывает ожидаемое значение результата при заданных предикторах. Линейная регрессия оценивает эту функцию для непрерывных результатов методом наименьших квадратов; логистические и другие обобщенные линейные модели распространяют ту же идею на бинарные, счетные и другие типы результатов через связующую функцию, которая соединяет линейный предиктор с масштабом результата. Во всех этих случаях коэффициенты несут содержательную интерпретацию, а диагностика проверяет, выполняются ли предположения, обосновывающие эту интерпретацию.

Clinical relevance

Большинство количественных результатов в клинических исследованиях и исследованиях общественного здравоохранения — скорректированные ассоциации, факторы риска, зависимости доза-ответ и прогностические модели — получены с помощью регрессии. Понимание того, как строятся и интерпретируются эти модели, является частью критической оценки литературы. Эта область описывает, как генерируются такие доказательства, и не является основой для индивидуальных диагностических или лечебных решений.

Evidence & guidelines

Руководства по отчетности для исследований, основанных на регрессии, включают заявление STROBE для наблюдательных исследований и заявление TRIPOD для исследований прогностических моделей; стандартные учебники, такие как Харрелл и Виттингофф с соавторами, излагают рекомендуемую стратегию моделирования. Методологические комментарии предостерегают от избегаемых практик, таких как дихотомизация непрерывных предикторов, которая приводит к потере информации и может искажать оцененные эффекты.

History

Корреляция и регрессия берут свое начало в исследованиях наследственности Фрэнсиса Гальтона конца XIX века, где он описал «регрессию к среднему», и были формализованы Карлом Пирсоном. В XX веке линейная модель была расширена до множественных предикторов, а затем структура обобщенной линейной модели объединила линейные, логистические и связанные с ними модели. В биостатистике эти методы стали стандартным аппаратом для скорректированного анализа и прогнозирования риска.

Key figures

  • Francis Galton
  • Karl Pearson
  • David Cox
  • Frank Harrell
  • Douglas Altman

Related topics

Seminal works

  • altman-bland-2005
  • harrell-2015

Frequently asked questions

В чем разница между корреляцией и регрессией?
Корреляция суммирует силу и направление связи между двумя переменными в одном симметричном коэффициенте, тогда как регрессия моделирует, как результат зависит от одного или нескольких предикторов, и дает коэффициенты, которые могут быть использованы для корректировки или прогнозирования. Корреляция не различает результат от предиктора; регрессия различает.
Какую модель регрессии следует использовать?
Выбор зависит от типа результата: линейная регрессия для непрерывного результата, логистическая регрессия для бинарного результата и другие обобщенные линейные или модели выживаемости для счетных данных или данных о времени до события. Отдельные тематические статьи подробно описывают каждый из них.

Methods for this concept

Related concepts