Обучение с подкреплением
Обучение с подкреплением тренирует агента принимать последовательные решения методом проб и ошибок, максимизируя кумулятивное вознаграждение через взаимодействие со средой.
Definition
Обучение с подкреплением — это задача обучения политике, отображению ситуаций в действия, которая максимизирует ожидаемое кумулятивное вознаграждение, при этом агент учится на последствиях своих собственных действий, а не на размеченных примерах правильного поведения.
Scope
Эта область охватывает обучение действиям: фреймворк марковских процессов принятия решений, включающий состояния, действия, вознаграждения и переходы; функции ценности и уравнения Беллмана; методы, основанные на ценности, такие как обучение с временными различиями и Q-обучение; методы градиента политики, которые напрямую оптимизируют политику; и комбинацию этих идей с глубокими нейронными сетями. Он рассматривает компромисс между исследованием и эксплуатацией, а также проблему отложенного вознаграждения.
Sub-topics
Core questions
- Как агент может научиться хорошему поведению, используя только сигналы вознаграждения?
- Как связаны долгосрочная ценность и немедленное вознаграждение через уравнения Беллмана?
- Как агенту следует балансировать между исследованием новых действий и эксплуатацией известных хороших?
- Как распределяется кредит за более ранние действия для последующих вознаграждений?
Key theories
- Марковские процессы принятия решений и функции ценности
- Взаимодействие моделируется как марковский процесс принятия решений, а функции ценности суммируют ожидаемое будущее вознаграждение, удовлетворяя уравнениям Беллмана, которые лежат в основе почти всех алгоритмов обучения с подкреплением.
- Обучение с временными различиями
- Агенты могут изучать оценки ценности путем бутстрапа, обновляя предсказания в сторону более поздних предсказаний плюс наблюдаемое вознаграждение, что позволяет учиться на неполных эпизодах и онлайн-опыте.
- Глубокое обучение с подкреплением
- Использование глубоких нейронных сетей для аппроксимации функций ценности или политик позволяет масштабировать обучение с подкреплением до высокоразмерных входных данных, как показали агенты, которые научились играть в игры Atari и игру Го.
Clinical relevance
Обучение с подкреплением решает задачи последовательного принятия решений в условиях неопределенности и способствовало прогрессу в играх, робототехнике, рекомендательных системах и управлении, а также в согласовании больших языковых моделей посредством обучения на основе обратной связи; его природа проб и ошибок и трудность спецификации вознаграждения делают безопасное и эффективное с точки зрения выборки обучение актуальными проблемами.
History
Обучение с подкреплением объединило идеи оптимального управления, динамического программирования и обучения животных. Обучение с временными различиями и Q-обучение появились в 1980-х и начале 1990-х годов, а учебник Саттона и Барто систематизировал эту область. Комбинация с глубоким обучением в 2010-х годах позволила создать агентов, достигающих человеческого уровня игры в игры Atari и сверхчеловеческого уровня в Го.
Debates
- Эффективность выборки и дизайн вознаграждения
- Обучение с подкреплением может требовать огромного взаимодействия и чувствительно к тому, как задано вознаграждение, что вызывает дебаты о том, как сделать его более эффективным с точки зрения данных и как избежать того, чтобы агенты эксплуатировали неверно заданные вознаграждения.
Key figures
- Richard Sutton
- Andrew Barto
- Christopher Watkins
- David Silver
Related topics
Seminal works
- sutton2018
- mnih2015
- silver2016
Frequently asked questions
- Чем обучение с подкреплением отличается от обучения с учителем?
- При обучении с учителем для каждого входа указывается правильный выход. Агент обучения с подкреплением получает только сигнал вознаграждения, который оценивает результаты его действий, должен открывать хорошее поведение методом проб и ошибок и должен справляться с вознаграждениями, которые приходят значительно позже действий, которые их заслужили.
- Что такое компромисс между исследованием и эксплуатацией?
- Агент должен выбирать между эксплуатацией действий, которые, как известно, приносят хорошее вознаграждение, и исследованием непроверенных действий, которые могут быть еще лучше. Слишком малое исследование может привести к субоптимальной стратегии, в то время как слишком большое тратит возможности впустую, поэтому балансирование между ними является центральным для обучения с подкреплением.