Регрессия и корреляция
Регрессия и корреляция являются основными биостатистическими инструментами для количественной оценки взаимосвязи между переменными. Корреляция измеряет силу и направление связи между двумя величинами, в то время как регрессия моделирует изменение результата при изменении одной или нескольких объясняющих переменных, поддерживая как объяснение, так и прогнозирование. Вместе они лежат в основе большинства многомерных анализов, представленных в науках о здоровье.
Definition
Регрессия и корреляция включают статистические методы, которые суммируют связь между переменными (корреляция и ковариация) и которые оценивают функцию, связывающую результат с одной или несколькими объясняющими переменными (регрессия), так что результат может быть объяснен, скорректирован с учетом вмешивающихся факторов или предсказан.
Scope
Эта область ориентирует читателя в семействе методов, используемых для описания ассоциации и моделирования результатов на основе предикторов: корреляция и ковариация, простая и множественная линейная регрессия для непрерывных результатов, логистическая регрессия для бинарных результатов, а также сквозные вопросы выбора модели и диагностики. Это скорее методологическая карта, чем клиническое руководство, и она содержит ссылки на отдельные тематические статьи, где каждый метод подробно разработан.
Sub-topics
Core questions
- Насколько сильно и в каком направлении связаны две переменные?
- Как изменяется результат при изменении объясняющей переменной, при сохранении других переменных постоянными?
- Какая форма модели (линейная, логистическая или другая) соответствует типу анализируемого результата?
- Как интерпретируются коэффициенты регрессии как эффекты или как прогнозы?
- Как проверяется, выбирается и предотвращается переобучение подогнанной модели?
Key concepts
- Ковариация и коэффициент корреляции
- Оценка методом наименьших квадратов
- Коэффициент регрессии (наклон) и свободный член
- Корректировка и контроль вмешивающихся факторов с помощью множественной регрессии
- Связующая функция и структура обобщенной линейной модели
- Прогнозирование против объяснения
- Переобучение и валидация модели
- Остатки и диагностика модели
Mechanisms
Корреляция сводит совместную вариацию двух переменных (их ковариацию) к безразмерному коэффициенту в диапазоне от -1 до +1. Регрессия идет дальше, подбирая функцию — чаще всего линию или сумму взвешенных предикторов, — которая описывает ожидаемое значение результата при заданных предикторах. Линейная регрессия оценивает эту функцию для непрерывных результатов методом наименьших квадратов; логистические и другие обобщенные линейные модели распространяют ту же идею на бинарные, счетные и другие типы результатов через связующую функцию, которая соединяет линейный предиктор с масштабом результата. Во всех этих случаях коэффициенты несут содержательную интерпретацию, а диагностика проверяет, выполняются ли предположения, обосновывающие эту интерпретацию.
Clinical relevance
Большинство количественных результатов в клинических исследованиях и исследованиях общественного здравоохранения — скорректированные ассоциации, факторы риска, зависимости доза-ответ и прогностические модели — получены с помощью регрессии. Понимание того, как строятся и интерпретируются эти модели, является частью критической оценки литературы. Эта область описывает, как генерируются такие доказательства, и не является основой для индивидуальных диагностических или лечебных решений.
Evidence & guidelines
Руководства по отчетности для исследований, основанных на регрессии, включают заявление STROBE для наблюдательных исследований и заявление TRIPOD для исследований прогностических моделей; стандартные учебники, такие как Харрелл и Виттингофф с соавторами, излагают рекомендуемую стратегию моделирования. Методологические комментарии предостерегают от избегаемых практик, таких как дихотомизация непрерывных предикторов, которая приводит к потере информации и может искажать оцененные эффекты.
History
Корреляция и регрессия берут свое начало в исследованиях наследственности Фрэнсиса Гальтона конца XIX века, где он описал «регрессию к среднему», и были формализованы Карлом Пирсоном. В XX веке линейная модель была расширена до множественных предикторов, а затем структура обобщенной линейной модели объединила линейные, логистические и связанные с ними модели. В биостатистике эти методы стали стандартным аппаратом для скорректированного анализа и прогнозирования риска.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- В чем разница между корреляцией и регрессией?
- Корреляция суммирует силу и направление связи между двумя переменными в одном симметричном коэффициенте, тогда как регрессия моделирует, как результат зависит от одного или нескольких предикторов, и дает коэффициенты, которые могут быть использованы для корректировки или прогнозирования. Корреляция не различает результат от предиктора; регрессия различает.
- Какую модель регрессии следует использовать?
- Выбор зависит от типа результата: линейная регрессия для непрерывного результата, логистическая регрессия для бинарного результата и другие обобщенные линейные или модели выживаемости для счетных данных или данных о времени до события. Отдельные тематические статьи подробно описывают каждый из них.