Что делает k-кратная перекрестная проверка?

Она делит данные на k равных частей, затем обучает модель k раз, каждый раз откладывая другую часть для тестирования и используя остальное для обучения. Усреднение k результатов тестирования дает оценку того, как модель будет работать на невидимых данных.

Почему иногда необходима вложенная перекрестная проверка?

Если вы настраиваете гиперпараметры и измеряете производительность с помощью одной и той же перекрестной проверки, оценка будет оптимистичной, потому что выбор был подогнан под эти данные. Вложенная перекрестная проверка использует внутренний цикл для настройки и внешний цикл для оценки, сохраняя их разделенными.

Перекрестная проверка и повторная выборка

Перекрестная проверка и повторная выборка оценивают ошибку обобщения модели путем многократного разделения или повторной выборки доступных данных, что позволяет эффективно использовать ограниченные наборы данных.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Перекрестная проверка оценивает ошибку обобщения путем разделения данных на блоки (folds), обучения на одних блоках и тестирования на отложенном блоке, а также усреднения по ротациям; повторная выборка в более широком смысле, включая бутстреп, многократно извлекает подмножества данных для оценки производительности и изменчивости процедуры обучения.

Scope

Эта тема охватывает методы повторного использования данных для оценки моделей: разделение на обучающую и тестовую выборки, k-кратная и скользящая перекрестная проверка (leave-one-out cross-validation), стратифицированная и вложенная перекрестная проверка для настройки, а также бутстреп для оценки неопределенности. В ней рассматриваются смещение и дисперсия этих оценок, а также такие ловушки, как утечка данных, которые могут сделать их недействительными.

Core questions

Как k-кратная перекрестная проверка оценивает ошибку обобщения?
Каковы компромиссы между смещением и дисперсией для различного количества блоков?
Как вложенная перекрестная проверка разделяет настройку и оценку?
Как бутстреп оценивает изменчивость оценки?

Key theories

k-кратная перекрестная проверка: Разделение данных на k блоков и поочередное откладывание каждого блока дает оценку ошибки обобщения, которая использует все данные как для обучения, так и для тестирования, обменивая вычислительные затраты на более надежную оценку.
Вложенная перекрестная проверка: При настройке гиперпараметров внутренний цикл перекрестной проверки выбирает их, а внешний цикл оценивает производительность, предотвращая оптимистическое смещение, возникающее при настройке и оценке на одних и тех же данных.
Бутстреп: Многократная повторная выборка данных с заменой оценивает выборочное распределение статистики или производительности модели, предоставляя доверительные интервалы и оценки ошибок без предположений о распределении.

Clinical relevance

Перекрестная проверка является стандартным инструментом для оценки производительности модели и выбора моделей при ограниченных данных, а бутстреп широко используется для количественной оценки неопределенности; их неправильное применение, например, путем утечки тестовой информации в обучение или настройки на оценочных данных, является частой и серьезной причиной завышенных результатов.

History

Перекрестная проверка была разработана как формальный метод оценки ошибки прогнозирования Стоуном и Гейссером в 1970-х годах. Эфрон представил бутстреп в 1979 году, и вместе эти методы повторной выборки стали незаменимыми для оценки и определения неопределенности в статистике и машинном обучении.

Key figures

Mervyn Stone
Bradley Efron
Robert Tibshirani

Seminal works

hastie2009
efron1993
murphy2012

Frequently asked questions

Что делает k-кратная перекрестная проверка?: Она делит данные на k равных частей, затем обучает модель k раз, каждый раз откладывая другую часть для тестирования и используя остальное для обучения. Усреднение k результатов тестирования дает оценку того, как модель будет работать на невидимых данных.
Почему иногда необходима вложенная перекрестная проверка?: Если вы настраиваете гиперпараметры и измеряете производительность с помощью одной и той же перекрестной проверки, оценка будет оптимистичной, потому что выбор был подогнан под эти данные. Вложенная перекрестная проверка использует внутренний цикл для настройки и внешний цикл для оценки, сохраняя их разделенными.