Предиктивные информационные критерии
Предиктивные информационные критерии оценивают ожидаемую вневыборочную точность модели по ее апостериорному распределению, предлагая ориентированную на предсказание альтернативу байесовским факторам для сравнения моделей.
Definition
Предиктивные информационные критерии — это оценки ожидаемой логарифмической предиктивной плотности модели на новых данных, вычисленные по апостериорным выборкам и скорректированные на переобучение с помощью штрафа за эффективное число параметров, используемые для ранжирования моделей по предиктивной производительности.
Scope
Эта тема охватывает информационный критерий отклонения (DIC), широко применимый информационный критерий (WAIC) и эффективную кросс-валидацию с исключением по одному на основе сглаженного по Парето метода значимости, включая то, как каждый из них оценивает эффективное число параметров и аппроксимирует ожидаемую логарифмическую предиктивную плотность.
Core questions
- Как DIC, WAIC и кросс-валидация с исключением по одному оценивают предиктивную точность?
- Что такое эффективное число параметров и как оно вычисляется?
- Почему WAIC считается более полно байесовским, чем DIC?
- Как сглаженный по Парето метод значимости делает кросс-валидацию с исключением по одному эффективной?
Key concepts
- DIC
- WAIC
- кросс-валидация с исключением по одному
- ожидаемая логарифмическая предиктивная плотность
- эффективное число параметров
- сглаженный по Парето метод значимости
- штраф за переобучение
Key theories
- Эффективное число параметров
- Каждый критерий штрафует подгонку оценкой сложности модели, полученной из изменчивости логарифмического правдоподобия по апостериорному распределению, так что лучшая внутривыборочная подгонка не автоматически выигрывает.
- Эквивалентность WAIC и кросс-валидации
- Ватанабе показал, что WAIC асимптотически эквивалентен байесовской кросс-валидации с исключением по одному, и оба непосредственно нацелены на ожидаемую вневыборочную логарифмическую предиктивную плотность, используя полное апостериорное распределение.
Clinical relevance
Предиктивные критерии позволяют исследователям сравнивать модели-кандидаты для прогнозирования в эпидемиологии, экологии и естественных науках без необходимости задавать тщательно настроенные априорные распределения, которые требуются для байесовских факторов.
History
Шпигельхальтер и коллеги предложили DIC в 2002 году; Ватанабе представил WAIC из теории сингулярного обучения в 2010 году. Работа Вяхтари, Гельмана и Габри 2017 года по кросс-валидации с исключением по одному на основе сглаженного по Парето метода значимости сделала стабильную, диагностируемую предиктивную оценку практичной.
Debates
- Надежность DIC
- DIC может плохо работать для иерархических и нерегулярных моделей и не обладает инвариантностью, что заставляет многих предпочитать WAIC или кросс-валидацию с исключением по одному, хотя ни один критерий не является универсально лучшим.
Key figures
- David Spiegelhalter
- Sumio Watanabe
- Aki Vehtari
- Andrew Gelman
Related topics
Seminal works
- watanabe2010
- vehtari2017
Frequently asked questions
- Лучше ли более низкий или более высокий информационный критерий?
- Эти критерии обычно сообщаются по шкале девиации, где более низкие значения указывают на лучшую оцененную вневыборочную предиктивную точность; различия следует оценивать относительно их стандартных ошибок, а не рассматривать как точные.