Чем обучение с подкреплением отличается от обучения с учителем?

При обучении с учителем для каждого входа указывается правильный выход. Агент обучения с подкреплением получает только сигнал вознаграждения, который оценивает результаты его действий, должен открывать хорошее поведение методом проб и ошибок и должен справляться с вознаграждениями, которые приходят значительно позже действий, которые их заслужили.

Что такое компромисс между исследованием и эксплуатацией?

Агент должен выбирать между эксплуатацией действий, которые, как известно, приносят хорошее вознаграждение, и исследованием непроверенных действий, которые могут быть еще лучше. Слишком малое исследование может привести к субоптимальной стратегии, в то время как слишком большое тратит возможности впустую, поэтому балансирование между ними является центральным для обучения с подкреплением.

Обучение с подкреплением

Обучение с подкреплением тренирует агента принимать последовательные решения методом проб и ошибок, максимизируя кумулятивное вознаграждение через взаимодействие со средой.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Обучение с подкреплением — это задача обучения политике, отображению ситуаций в действия, которая максимизирует ожидаемое кумулятивное вознаграждение, при этом агент учится на последствиях своих собственных действий, а не на размеченных примерах правильного поведения.

Scope

Эта область охватывает обучение действиям: фреймворк марковских процессов принятия решений, включающий состояния, действия, вознаграждения и переходы; функции ценности и уравнения Беллмана; методы, основанные на ценности, такие как обучение с временными различиями и Q-обучение; методы градиента политики, которые напрямую оптимизируют политику; и комбинацию этих идей с глубокими нейронными сетями. Он рассматривает компромисс между исследованием и эксплуатацией, а также проблему отложенного вознаграждения.

Sub-topics

Core questions

Как агент может научиться хорошему поведению, используя только сигналы вознаграждения?
Как связаны долгосрочная ценность и немедленное вознаграждение через уравнения Беллмана?
Как агенту следует балансировать между исследованием новых действий и эксплуатацией известных хороших?
Как распределяется кредит за более ранние действия для последующих вознаграждений?

Key theories

Марковские процессы принятия решений и функции ценности: Взаимодействие моделируется как марковский процесс принятия решений, а функции ценности суммируют ожидаемое будущее вознаграждение, удовлетворяя уравнениям Беллмана, которые лежат в основе почти всех алгоритмов обучения с подкреплением.
Обучение с временными различиями: Агенты могут изучать оценки ценности путем бутстрапа, обновляя предсказания в сторону более поздних предсказаний плюс наблюдаемое вознаграждение, что позволяет учиться на неполных эпизодах и онлайн-опыте.
Глубокое обучение с подкреплением: Использование глубоких нейронных сетей для аппроксимации функций ценности или политик позволяет масштабировать обучение с подкреплением до высокоразмерных входных данных, как показали агенты, которые научились играть в игры Atari и игру Го.

Clinical relevance

Обучение с подкреплением решает задачи последовательного принятия решений в условиях неопределенности и способствовало прогрессу в играх, робототехнике, рекомендательных системах и управлении, а также в согласовании больших языковых моделей посредством обучения на основе обратной связи; его природа проб и ошибок и трудность спецификации вознаграждения делают безопасное и эффективное с точки зрения выборки обучение актуальными проблемами.

History

Обучение с подкреплением объединило идеи оптимального управления, динамического программирования и обучения животных. Обучение с временными различиями и Q-обучение появились в 1980-х и начале 1990-х годов, а учебник Саттона и Барто систематизировал эту область. Комбинация с глубоким обучением в 2010-х годах позволила создать агентов, достигающих человеческого уровня игры в игры Atari и сверхчеловеческого уровня в Го.

Debates

Эффективность выборки и дизайн вознаграждения: Обучение с подкреплением может требовать огромного взаимодействия и чувствительно к тому, как задано вознаграждение, что вызывает дебаты о том, как сделать его более эффективным с точки зрения данных и как избежать того, чтобы агенты эксплуатировали неверно заданные вознаграждения.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

Чем обучение с подкреплением отличается от обучения с учителем?: При обучении с учителем для каждого входа указывается правильный выход. Агент обучения с подкреплением получает только сигнал вознаграждения, который оценивает результаты его действий, должен открывать хорошее поведение методом проб и ошибок и должен справляться с вознаграждениями, которые приходят значительно позже действий, которые их заслужили.
Что такое компромисс между исследованием и эксплуатацией?: Агент должен выбирать между эксплуатацией действий, которые, как известно, приносят хорошее вознаграждение, и исследованием непроверенных действий, которые могут быть еще лучше. Слишком малое исследование может привести к субоптимальной стратегии, в то время как слишком большое тратит возможности впустую, поэтому балансирование между ними является центральным для обучения с подкреплением.