Лучше ли более низкий или более высокий информационный критерий?

Эти критерии обычно сообщаются по шкале девиации, где более низкие значения указывают на лучшую оцененную вневыборочную предиктивную точность; различия следует оценивать относительно их стандартных ошибок, а не рассматривать как точные.

Предиктивные информационные критерии

Предиктивные информационные критерии оценивают ожидаемую вневыборочную точность модели по ее апостериорному распределению, предлагая ориентированную на предсказание альтернативу байесовским факторам для сравнения моделей.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Предиктивные информационные критерии — это оценки ожидаемой логарифмической предиктивной плотности модели на новых данных, вычисленные по апостериорным выборкам и скорректированные на переобучение с помощью штрафа за эффективное число параметров, используемые для ранжирования моделей по предиктивной производительности.

Scope

Эта тема охватывает информационный критерий отклонения (DIC), широко применимый информационный критерий (WAIC) и эффективную кросс-валидацию с исключением по одному на основе сглаженного по Парето метода значимости, включая то, как каждый из них оценивает эффективное число параметров и аппроксимирует ожидаемую логарифмическую предиктивную плотность.

Core questions

Как DIC, WAIC и кросс-валидация с исключением по одному оценивают предиктивную точность?
Что такое эффективное число параметров и как оно вычисляется?
Почему WAIC считается более полно байесовским, чем DIC?
Как сглаженный по Парето метод значимости делает кросс-валидацию с исключением по одному эффективной?

Key concepts

DIC
WAIC
кросс-валидация с исключением по одному
ожидаемая логарифмическая предиктивная плотность
эффективное число параметров
сглаженный по Парето метод значимости
штраф за переобучение

Key theories

Эффективное число параметров: Каждый критерий штрафует подгонку оценкой сложности модели, полученной из изменчивости логарифмического правдоподобия по апостериорному распределению, так что лучшая внутривыборочная подгонка не автоматически выигрывает.
Эквивалентность WAIC и кросс-валидации: Ватанабе показал, что WAIC асимптотически эквивалентен байесовской кросс-валидации с исключением по одному, и оба непосредственно нацелены на ожидаемую вневыборочную логарифмическую предиктивную плотность, используя полное апостериорное распределение.

Clinical relevance

Предиктивные критерии позволяют исследователям сравнивать модели-кандидаты для прогнозирования в эпидемиологии, экологии и естественных науках без необходимости задавать тщательно настроенные априорные распределения, которые требуются для байесовских факторов.

History

Шпигельхальтер и коллеги предложили DIC в 2002 году; Ватанабе представил WAIC из теории сингулярного обучения в 2010 году. Работа Вяхтари, Гельмана и Габри 2017 года по кросс-валидации с исключением по одному на основе сглаженного по Парето метода значимости сделала стабильную, диагностируемую предиктивную оценку практичной.

Debates

Надежность DIC: DIC может плохо работать для иерархических и нерегулярных моделей и не обладает инвариантностью, что заставляет многих предпочитать WAIC или кросс-валидацию с исключением по одному, хотя ни один критерий не является универсально лучшим.

Key figures

David Spiegelhalter
Sumio Watanabe
Aki Vehtari
Andrew Gelman

Seminal works

watanabe2010
vehtari2017

Frequently asked questions

Лучше ли более низкий или более высокий информационный критерий?: Эти критерии обычно сообщаются по шкале девиации, где более низкие значения указывают на лучшую оцененную вневыборочную предиктивную точность; различия следует оценивать относительно их стандартных ошибок, а не рассматривать как точные.