Почему бы просто не измерять ошибку на данных, использованных для подгонки модели?

Внутривыборочная ошибка является оптимистичной, потому что модель была настроена на эти самые данные, поэтому она недооценивает ошибку на новых данных. Перекрестная проверка оценивает прогнозы на данных, которые модель не видела во время подгонки, давая более честную оценку.

Сколько блоков мне следует использовать?

Пять или десять блоков являются распространенным выбором, который уравновешивает смещение и дисперсию и делает вычисления управляемыми. Исключение по одному использует столько блоков, сколько наблюдений, что дает низкое смещение, но более высокую дисперсию и большие затраты.

Перекрестная проверка

Перекрестная проверка оценивает, насколько хорошо модель будет предсказывать новые данные, путем многократной подгонки ее к части выборки и измерения ее ошибки на отложенной оставшейся части.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Перекрестная проверка — это процедура повторной выборки, которая оценивает вневыборочную прогностическую ошибку модели путем разделения данных на взаимодополняющие подмножества, подгонки на одних подмножествах и оценки ошибки прогнозирования на других, а также усреднения по разделам.

Scope

Эта тема охватывает перекрестную проверку с исключением по одному и k-блочную перекрестную проверку, схемы проверки с использованием валидационного набора и повторяющейся перекрестной проверки, их использование для выбора модели и выбора параметров настройки, компромисс между смещением и дисперсией в оценке ошибки, а также подводные камни, такие как утечка информации и оптимизм внутривыборочной ошибки. Подчеркивается ее роль в оценке на основе повторной выборки.

Core questions

Как откладывание данных и их прогнозирование оценивает ошибку обобщения?
Какие компромиссы отличают перекрестную проверку с исключением по одному от k-блочной перекрестной проверки?
Как перекрестная проверка используется для выбора моделей и настройки гиперпараметров?
Какие практики, такие как предотвращение утечки информации, необходимы для получения достоверных оценок?

Key concepts

k-блочное разбиение
Перекрестная проверка с исключением по одному
Валидационный набор
Ошибка обобщения
Выбор модели
Утечка информации

Key theories

Перекрестно-валидационная оценка: Подгонка на одной части данных и оценка на несвязанной части дает оценку ошибки прогнозирования, которая, усредненная по блокам, аппроксимирует ошибку модели на независимых будущих данных.
Смещение-дисперсия в оценке ошибки: Перекрестная проверка с исключением по одному почти несмещена, но может иметь высокую дисперсию, в то время как k-блочная проверка с умеренным k обменивает небольшое смещение вверх на более низкую дисперсию, что обусловливает общий выбор пяти или десяти блоков.

Clinical relevance

Перекрестная проверка является стандартным инструментом для выбора между моделями, настройки регуляризации и других гиперпараметров, а также для сообщения о достоверной прогностической производительности; она занимает центральное место в статистическом обучении и практике машинного обучения в науках, основанных на данных.

History

Идеи перекрестной проверки были формализованы Стоуном и Гайссером в 1974 году как принципиальный способ оценки и выбора прогностических моделей; взрывной рост статистического и машинного обучения сделал k-блочную перекрестную проверку рутинным стандартом для оценки моделей.

Debates

Смещение и дисперсия оценки перекрестной проверки: Продолжается обсуждение того, сколько блоков использовать и как получить достоверные оценки неопределенности для перекрестно-валидированной ошибки, поскольку блоки перекрываются, и результирующие оценки ошибки коррелированы.

Key figures

Mervyn Stone
Seymour Geisser
Trevor Hastie
Robert Tibshirani

Seminal works

stone1974
hastie2009

Frequently asked questions

Почему бы просто не измерять ошибку на данных, использованных для подгонки модели?: Внутривыборочная ошибка является оптимистичной, потому что модель была настроена на эти самые данные, поэтому она недооценивает ошибку на новых данных. Перекрестная проверка оценивает прогнозы на данных, которые модель не видела во время подгонки, давая более честную оценку.
Сколько блоков мне следует использовать?: Пять или десять блоков являются распространенным выбором, который уравновешивает смещение и дисперсию и делает вычисления управляемыми. Исключение по одному использует столько блоков, сколько наблюдений, что дает низкое смещение, но более высокую дисперсию и большие затраты.