En quoi l'apprentissage par renforcement diffère-t-il de l'apprentissage supervisé ?

L'apprentissage supervisé reçoit la sortie correcte pour chaque entrée. Un agent d'apprentissage par renforcement ne reçoit qu'un signal de récompense qui évalue les résultats de ses actions, doit découvrir un bon comportement par essais et erreurs, et doit faire face à des récompenses qui arrivent longtemps après les actions qui les ont méritées.

Qu'est-ce que le compromis exploration-exploitation ?

Un agent doit choisir entre exploiter les actions connues pour donner une bonne récompense et explorer des actions non encore essayées qui pourraient être encore meilleures. Trop peu d'exploration peut enfermer dans une stratégie sous-optimale, tandis que trop d'exploration gaspille des opportunités ; l'équilibre entre les deux est donc central dans l'apprentissage par renforcement.

Apprentissage par renforcement

L'apprentissage par renforcement entraîne un agent à prendre des séquences de décisions par essais et erreurs, maximisant la récompense cumulative par l'interaction avec un environnement.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'apprentissage par renforcement est le problème de l'apprentissage d'une politique, c'est-à-dire une correspondance entre des situations et des actions, qui maximise la récompense cumulative attendue, où l'agent apprend des conséquences de ses propres actions plutôt que d'exemples étiquetés de comportement correct.

Scope

Ce domaine couvre l'apprentissage de l'action : le cadre du processus de décision markovien (états, actions, récompenses et transitions) ; les fonctions de valeur et les équations de Bellman ; les méthodes basées sur la valeur telles que l'apprentissage par différence temporelle et le Q-learning ; les méthodes de gradient de politique qui optimisent directement une politique ; et la combinaison de ces idées avec les réseaux de neurones profonds. Il aborde le compromis exploration-exploitation et le défi de la récompense différée.

Sub-topics

Core questions

Comment un agent peut-il apprendre un bon comportement à partir de seuls signaux de récompense ?
Comment la valeur à long terme et la récompense immédiate sont-elles liées par les équations de Bellman ?
Comment un agent doit-il équilibrer l'exploration de nouvelles actions et l'exploitation de celles qui sont connues pour être bonnes ?
Comment le crédit est-il attribué aux actions antérieures pour les récompenses ultérieures ?

Key theories

Processus de décision markoviens et fonctions de valeur: L'interaction est modélisée comme un processus de décision markovien, et les fonctions de valeur résument la récompense future attendue, satisfaisant les équations de Bellman qui sous-tendent presque tous les algorithmes d'apprentissage par renforcement.
Apprentissage par différence temporelle: Les agents peuvent apprendre des estimations de valeur par amorçage (bootstrapping), en mettant à jour les prédictions vers des prédictions ultérieures plus la récompense observée, ce qui permet d'apprendre à partir d'épisodes incomplets et d'expérience en ligne.
Apprentissage profond par renforcement: L'utilisation de réseaux de neurones profonds pour approximer les fonctions de valeur ou les politiques permet à l'apprentissage par renforcement de s'adapter à des entrées de haute dimension, comme démontré par des agents qui ont appris à jouer aux jeux Atari et au jeu de Go.

Clinical relevance

L'apprentissage par renforcement aborde la prise de décision séquentielle en situation d'incertitude et a permis des avancées dans les jeux, la robotique, la recommandation et le contrôle, ainsi que l'alignement des grands modèles de langage par l'apprentissage à partir de retours d'information ; sa nature par essais et erreurs et la difficulté de spécifier la récompense font de l'apprentissage sûr et économe en échantillons des préoccupations actives.

History

L'apprentissage par renforcement a unifié des idées issues du contrôle optimal, de la programmation dynamique et de l'apprentissage animal. L'apprentissage par différence temporelle et le Q-learning ont émergé dans les années 1980 et au début des années 1990, et le manuel de Sutton et Barto a codifié le domaine. La combinaison avec l'apprentissage profond dans les années 2010 a produit des agents atteignant un niveau de jeu humain aux jeux Atari et un niveau surhumain au Go.

Debates

Efficacité des échantillons et conception de la récompense: L'apprentissage par renforcement peut nécessiter une interaction énorme et est sensible à la manière dont la récompense est spécifiée, ce qui suscite un débat sur la façon de le rendre plus efficace en termes de données et d'éviter que les agents n'exploitent des récompenses mal spécifiées.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

En quoi l'apprentissage par renforcement diffère-t-il de l'apprentissage supervisé ?: L'apprentissage supervisé reçoit la sortie correcte pour chaque entrée. Un agent d'apprentissage par renforcement ne reçoit qu'un signal de récompense qui évalue les résultats de ses actions, doit découvrir un bon comportement par essais et erreurs, et doit faire face à des récompenses qui arrivent longtemps après les actions qui les ont méritées.
Qu'est-ce que le compromis exploration-exploitation ?: Un agent doit choisir entre exploiter les actions connues pour donner une bonne récompense et explorer des actions non encore essayées qui pourraient être encore meilleures. Trop peu d'exploration peut enfermer dans une stratégie sous-optimale, tandis que trop d'exploration gaspille des opportunités ; l'équilibre entre les deux est donc central dans l'apprentissage par renforcement.