Логистическая регрессия
Логистическая регрессия моделирует вероятность бинарного (да/нет) исхода как функцию одной или нескольких предикторных переменных. Поскольку вероятности ограничены значениями от 0 до 1, модель работает в масштабе логарифма шансов (log-odds), так что каждый коэффициент соответствует изменению логарифма шансов и при экспоненцировании преобразуется в отношение шансов. Это стандартный метод регрессии для бинарных исходов в науках о здоровье.
Definition
Логистическая регрессия моделирует логарифм шансов (логит) бинарного исхода как линейную функцию предикторов, logit(P) = b0 + b1X1 + ... + bkXk, оценивая коэффициенты методом максимального правдоподобия таким образом, что экспоненцированный коэффициент exp(bj) является скорректированным отношением шансов для предиктора Xj.
Scope
Эта статья охватывает бинарную логистическую модель: логит-связь и причины ее использования, интерпретацию коэффициентов как отношений шансов, оценку методом максимального правдоподобия, поправку на вмешивающиеся факторы, а также практические вопросы размера выборки (события на переменную), разделения и качества подгонки. В ней также отмечается различие между отношениями шансов и отношениями рисков. Это методологическая тема, а не клиническое руководство.
Core questions
- Почему бинарный исход моделируется в масштабе логарифма шансов, а не непосредственно как вероятность?
- Как коэффициент логистической регрессии интерпретируется как отношение шансов?
- Как оцениваются коэффициенты и как модель корректирует вмешивающиеся факторы?
- Сколько событий исхода необходимо на предиктор для стабильных оценок?
- Когда отношение шансов существенно отличается от отношения рисков?
Key concepts
- Логит (логарифм шансов) функция связи
- Отношение шансов как exp(коэффициент)
- Оценка методом максимального правдоподобия
- Скорректированное против не скорректированного отношения шансов
- События на переменную
- Разделение и квазиполное разделение
- Качество подгонки и калибровка
- Отношение шансов против отношения рисков
Mechanisms
Прямое моделирование вероятности с помощью линейного предиктора проблематично, поскольку предсказания могут выходить за пределы диапазона от 0 до 1; логит-связь решает эту проблему, преобразуя вероятность в ее логарифм шансов, который не ограничен и моделируется линейно. Коэффициенты оцениваются методом максимального правдоподобия, а не методом наименьших квадратов, и каждый экспоненцированный коэффициент представляет собой отношение шансов, сравнивающее шансы исхода для разницы в одну единицу в данном предикторе при сохранении остальных постоянными. Стабильная оценка требует достаточного количества событий исхода относительно числа предикторов; традиционное руководство о примерно десяти событиях на переменную было изучено и частично ослаблено в последующих работах. Когда предиктор идеально разделяет классы исходов, обычный метод максимального правдоподобия не работает (разделение), и для решения этой проблемы применяются штрафные подходы. Поскольку модель оценивает отношения шансов, они могут завышать отношение рисков, когда исход является частым, что послужило причиной для разработки альтернативных подходов, таких как модифицированная регрессия Пуассона для прямой оценки отношений рисков.
Clinical relevance
Логистическая регрессия лежит в основе значительной части скорректированных отношений шансов, а также диагностических и прогностических моделей, сообщаемых в клинических и эпидемиологических исследованиях. Понимание того, что ее коэффициенты являются отношениями шансов, и когда они расходятся с отношениями рисков, имеет центральное значение для интерпретации таких исследований. Эта статья описывает метод и не является основанием для индивидуальных диагностических или лечебных решений.
Epidemiology
Логистическая регрессия является естественным методом анализа для исследований случай-контроль, где отношение шансов является оцениваемой мерой ассоциации, и широко используется в когортных и поперечных исследованиях для получения скорректированных оценок эффекта для бинарных исходов. Когда исход является частым в когорте, отношение шансов отличается от отношения рисков, и аналитики могут предпочесть методы, которые непосредственно оценивают отношение рисков.
Evidence & guidelines
Текст Хосмера, Лемешоу и Стердиванта является стандартным справочником по подгонке и оценке логистических моделей. Отчетность по прогностическим моделям, построенным с использованием логистической регрессии, охватывается заявлением TRIPOD, а методологические исследования информируют о рекомендациях по размеру выборки, таких как количество событий на переменную.
History
Логистическая функция имеет корни в девятнадцатом веке в исследованиях роста населения, а ее использование для бинарной регрессии было разработано в середине двадцатого века, при этом работа Дэвида Кокса закрепила метод для анализа бинарных данных. Она стала основным инструментом эпидемиологии, особенно для анализа случай-контроль, где отношение шансов является естественной мерой. Последующая методологическая литература затрагивала практические вопросы, включая размер выборки, разделение и расхождение отношений шансов с отношениями рисков.
Debates
- Сколько событий исхода необходимо на предиктор?
- Давнее правило о примерно десяти событиях на переменную было подтверждено симуляционными работами, но более поздние исследования показали, что это правило является консервативным и зависит от контекста, так что в некоторых случаях может быть достаточно меньшего количества событий, в то время как в других может потребоваться больше.
- Следует ли использовать отношение шансов, когда исход является частым?
- Когда исход является частым, отношение шансов завышает отношение рисков и может быть неверно истолковано как относительный риск; альтернативные методы, такие как модифицированная регрессия Пуассона, непосредственно оценивают отношение рисков и были предложены для проспективных исследований с бинарными исходами.
Key figures
- David Cox
- David Hosmer
- Stanley Lemeshow
- Peter Peduzzi
- Eric Vittinghoff
Related topics
Seminal works
- hosmer-2013
- peduzzi-1996
Frequently asked questions
- Почему логистическая регрессия сообщает отношения шансов?
- Поскольку модель является линейной в масштабе логарифма шансов, каждый коэффициент представляет изменение логарифма шансов, а его экспоненцирование дает отношение шансов. Таким образом, отношение шансов является естественной мерой эффекта, которую модель производит для бинарного исхода.
- Когда отношение шансов является плохим приближением к отношению рисков?
- Когда исход является частым, отношение шансов расходится с отношением рисков и завышает его. В такой ситуации отношение шансов может ввести в заблуждение, если его интерпретировать как относительный риск, и методы, которые непосредственно оценивают отношение рисков, могут быть предпочтительнее.