Перекрестная проверка и повторная выборка
Перекрестная проверка и повторная выборка оценивают ошибку обобщения модели путем многократного разделения или повторной выборки доступных данных, что позволяет эффективно использовать ограниченные наборы данных.
Definition
Перекрестная проверка оценивает ошибку обобщения путем разделения данных на блоки (folds), обучения на одних блоках и тестирования на отложенном блоке, а также усреднения по ротациям; повторная выборка в более широком смысле, включая бутстреп, многократно извлекает подмножества данных для оценки производительности и изменчивости процедуры обучения.
Scope
Эта тема охватывает методы повторного использования данных для оценки моделей: разделение на обучающую и тестовую выборки, k-кратная и скользящая перекрестная проверка (leave-one-out cross-validation), стратифицированная и вложенная перекрестная проверка для настройки, а также бутстреп для оценки неопределенности. В ней рассматриваются смещение и дисперсия этих оценок, а также такие ловушки, как утечка данных, которые могут сделать их недействительными.
Core questions
- Как k-кратная перекрестная проверка оценивает ошибку обобщения?
- Каковы компромиссы между смещением и дисперсией для различного количества блоков?
- Как вложенная перекрестная проверка разделяет настройку и оценку?
- Как бутстреп оценивает изменчивость оценки?
Key theories
- k-кратная перекрестная проверка
- Разделение данных на k блоков и поочередное откладывание каждого блока дает оценку ошибки обобщения, которая использует все данные как для обучения, так и для тестирования, обменивая вычислительные затраты на более надежную оценку.
- Вложенная перекрестная проверка
- При настройке гиперпараметров внутренний цикл перекрестной проверки выбирает их, а внешний цикл оценивает производительность, предотвращая оптимистическое смещение, возникающее при настройке и оценке на одних и тех же данных.
- Бутстреп
- Многократная повторная выборка данных с заменой оценивает выборочное распределение статистики или производительности модели, предоставляя доверительные интервалы и оценки ошибок без предположений о распределении.
Clinical relevance
Перекрестная проверка является стандартным инструментом для оценки производительности модели и выбора моделей при ограниченных данных, а бутстреп широко используется для количественной оценки неопределенности; их неправильное применение, например, путем утечки тестовой информации в обучение или настройки на оценочных данных, является частой и серьезной причиной завышенных результатов.
History
Перекрестная проверка была разработана как формальный метод оценки ошибки прогнозирования Стоуном и Гейссером в 1970-х годах. Эфрон представил бутстреп в 1979 году, и вместе эти методы повторной выборки стали незаменимыми для оценки и определения неопределенности в статистике и машинном обучении.
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- Что делает k-кратная перекрестная проверка?
- Она делит данные на k равных частей, затем обучает модель k раз, каждый раз откладывая другую часть для тестирования и используя остальное для обучения. Усреднение k результатов тестирования дает оценку того, как модель будет работать на невидимых данных.
- Почему иногда необходима вложенная перекрестная проверка?
- Если вы настраиваете гиперпараметры и измеряете производительность с помощью одной и той же перекрестной проверки, оценка будет оптимистичной, потому что выбор был подогнан под эти данные. Вложенная перекрестная проверка использует внутренний цикл для настройки и внешний цикл для оценки, сохраняя их разделенными.