ScholarGate
Ассистент

Множественная линейная регрессия

Множественная линейная регрессия расширяет модель прямой линии до нескольких объясняющих переменных одновременно, моделируя непрерывный результат как взвешенную сумму предикторов плюс свободный член. Каждый коэффициент оценивает влияние своего предиктора, удерживая другие постоянными, что делает модель стандартным инструментом для корректировки ассоциации с учетом вмешивающихся факторов и для построения многомерного прогнозирования.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Множественная линейная регрессия аппроксимирует E(Y) = b0 + b1X1 + b2X2 + ... + bkXk для непрерывного результата Y, оценивая коэффициенты методом наименьших квадратов таким образом, что каждый bj количественно определяет среднее изменение Y на единицу увеличения Xj при сохранении постоянства других предикторов.

Scope

Эта статья охватывает многомерную линейную модель: интерпретацию каждого коэффициента как скорректированного эффекта, обработку категориальных предикторов и взаимодействий, дополнительные проблемы, возникающие при наличии нескольких предикторов (коллинеарность, переобучение и выбор предикторов), а также те же допущения, основанные на остатках, что и в простой модели. Это методологическая тема, а не клиническое руководство.

Core questions

  • Что значит интерпретировать коэффициент, 'удерживая другие переменные постоянными'?
  • Как множественная регрессия корректирует ассоциацию с учетом вмешивающихся факторов?
  • Как категориальные предикторы и взаимодействия представлены в модели?
  • Какие проблемы вызывают коллинеарность и слишком большое количество предикторов?
  • Как балансируется количество предикторов с размером выборки, чтобы избежать переобучения?

Key concepts

  • Скорректированный (частичный) коэффициент регрессии
  • Контроль смешения посредством корректировки
  • Дамми-кодирование категориальных предикторов
  • Члены взаимодействия (модификация эффекта)
  • Мультиколлинеарность
  • Переобучение и события/наблюдения на предиктор
  • R-квадрат модели и скорректированный R-квадрат
  • Линейность, независимость, постоянная дисперсия, нормальные ошибки

Mechanisms

Модель выражает средний результат как свободный член плюс взвешенную сумму предикторов, при этом веса (коэффициенты) оцениваются методом наименьших квадратов. Каждый коэффициент представляет собой частичный эффект: ожидаемое изменение результата на единицу изменения данного предиктора при фиксированных остальных, что является механизмом, посредством которого регрессия корректирует вмешивающиеся факторы. Категориальные предикторы вводятся как индикаторные (фиктивные) переменные, а члены взаимодействия позволяют эффекту одного предиктора зависеть от другого. Когда предикторы сильно коррелированы (мультиколлинеарность), отдельные коэффициенты становятся нестабильными и трудными для интерпретации, хотя общая предсказательная способность может оставаться неизменной. Включение слишком большого количества предикторов относительно размера выборки приводит к переобучению, когда модель улавливает шум и плохо работает на новых данных; это мотивирует ограничение предикторов относительно размера выборки и валидацию модели.

Clinical relevance

Множественная линейная регрессия дает большинство скорректированных ассоциаций, сообщаемых для непрерывных результатов в клинических исследованиях и исследованиях общественного здравоохранения, и является строительным блоком в работе по прогнозированию риска. Знание того, как интерпретируются ее коэффициенты и как контролируется смешение, является центральным для оценки таких исследований. Эта статья описывает метод и не является основой для индивидуальных диагностических или лечебных решений.

Evidence & guidelines

Стандартные тексты, такие как Кутнер и соавторы, а также Харрелл, излагают рекомендуемую стратегию моделирования, а методологические работы предостерегают от избегаемых практик — в частности, дихотомизации непрерывных предикторов, которая отбрасывает информацию и может искажать оценки. Отчетность по прогностическим моделям охватывается заявлением TRIPOD.

History

Многомерное расширение линейной модели развивалось благодаря работам Пирсона, Фишера и других в начале двадцатого века, которые установили оценку методом наименьших квадратов и вывод для нескольких предикторов. В биостатистике модель стала стандартным методом для корректировки ассоциаций с учетом вмешивающихся факторов, а более поздняя методологическая литература сосредоточилась на том, как следует выбирать предикторы и как переобучение и дихотомизация искажают результаты.

Debates

Следует ли дихотомизировать непрерывные предикторы в регрессионной модели?
Разделение непрерывного предиктора по пороговому значению отбрасывает информацию, снижает мощность и может искажать оцениваемую зависимость; методологи утверждают, что непрерывные предикторы обычно следует оставлять непрерывными, а нелинейность моделировать гибко, а не устранять путем категоризации.

Key figures

  • Karl Pearson
  • Ronald A. Fisher
  • Frank Harrell
  • Douglas Altman
  • Patrick Royston

Related topics

Seminal works

  • altman-royston-2006-cost
  • harrell-2015

Frequently asked questions

Почему множественная регрессия используется для контроля смешения?
Поскольку каждый коэффициент оценивает влияние своего предиктора, в то время как другие предикторы в модели остаются постоянными, включение вмешивающегося фактора в качестве предиктора корректирует оцененный эффект интересующего воздействия с учетом этого вмешивающегося фактора.
Что такое мультиколлинеарность и почему она важна?
Мультиколлинеарность — это сильная корреляция между предикторами. Она делает оценки отдельных коэффициентов нестабильными и трудными для интерпретации, с завышенными стандартными ошибками, хотя общая прогностическая точность модели может оставаться неизменной.

Methods for this concept

Related concepts