À partir de quoi l'apprentissage par différence temporelle s'auto-amorce-t-il ?

Il met à jour la valeur de l'état actuel en utilisant la récompense observée plus sa propre estimation de la valeur de l'état suivant. Parce qu'il repose en partie sur une autre estimation plutôt que d'attendre le résultat final, il peut apprendre en ligne et à partir d'épisodes incomplets.

Pourquoi le Q-learning est-il qualifié d'off-policy ?

Le Q-learning apprend la valeur de la politique optimale même lorsque l'agent suit une politique exploratoire différente pour recueillir l'expérience. Le comportement utilisé pour collecter les données et la politique évaluée peuvent différer, ce qui est la signification d'off-policy.

Méthodes basées sur la valeur

Les méthodes basées sur la valeur apprennent la qualité des états et des actions, puis agissent de manière gloutonne (greedy) par rapport à ces estimations pour obtenir une bonne politique.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Les méthodes basées sur la valeur estiment le rendement attendu des états ou des paires état-action et dérivent une politique en choisissant les actions ayant la valeur estimée la plus élevée ; elles apprennent ces estimations de manière incrémentale à partir de l'expérience, souvent par des mises à jour de différence temporelle qui ajustent une prédiction vers une estimation ultérieure, plus informée.

Scope

Ce sujet couvre les algorithmes d'apprentissage par renforcement centrés sur les fonctions de valeur : l'estimation Monte Carlo à partir d'épisodes complets, l'apprentissage par différence temporelle qui s'auto-amorce (bootstraps) à partir d'estimations ultérieures, et les algorithmes de contrôle Sarsa et Q-learning. Il aborde l'apprentissage on-policy versus off-policy, l'exploration par des stratégies telles que l'epsilon-greedy, et l'utilisation de l'approximation de fonction lorsque les états sont trop nombreux pour être énumérés.

Core questions

Comment les valeurs d'action sont-elles apprises à partir de l'expérience ?
Comment l'apprentissage par différence temporelle combine-t-il l'échantillonnage avec l'amorçage (bootstrapping) ?
Quelle est la différence entre l'apprentissage on-policy et off-policy ?
Comment l'exploration est-elle gérée lorsque l'on agit de manière gloutonne (greedy) sur les estimations de valeur ?

Key theories

Apprentissage par différence temporelle: Les méthodes de différence temporelle mettent à jour une estimation de valeur vers la récompense observée plus l'estimation actualisée de l'état suivant, apprenant en ligne à partir d'épisodes incomplets sans modèle de l'environnement.
Q-learning: Le Q-learning estime la valeur de la meilleure action dans chaque état et converge vers la fonction de valeur-action optimale quelle que soit la politique utilisée pour recueillir l'expérience, ce qui en fait une méthode off-policy fondamentale.
Approximation de valeur avec des réseaux profonds: La représentation de la fonction de valeur-action avec un réseau profond permet aux méthodes basées sur la valeur de gérer des entrées de haute dimension telles que des pixels bruts, comme dans le deep Q-network qui a appris à jouer à de nombreux jeux Atari.

Clinical relevance

Les méthodes basées sur la valeur comptent parmi les algorithmes d'apprentissage par renforcement les plus largement utilisés, et le Q-learning combiné à des réseaux profonds a produit les premiers agents à atteindre des performances de niveau humain directement à partir d'entrées sensorielles de haute dimension, démontrant comment l'estimation de la valeur s'adapte aux tâches complexes.

History

Sutton a introduit l'apprentissage par différence temporelle en 1988, et le Q-learning de Watkins en 1989 a fourni une méthode de contrôle off-policy convergente. La combinaison du Q-learning avec des réseaux profonds dans le deep Q-network de 2015 a étendu l'apprentissage par renforcement basé sur la valeur aux problèmes de haute dimension et a lancé l'ère moderne de l'apprentissage par renforcement profond.

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

À partir de quoi l'apprentissage par différence temporelle s'auto-amorce-t-il ?: Il met à jour la valeur de l'état actuel en utilisant la récompense observée plus sa propre estimation de la valeur de l'état suivant. Parce qu'il repose en partie sur une autre estimation plutôt que d'attendre le résultat final, il peut apprendre en ligne et à partir d'épisodes incomplets.
Pourquoi le Q-learning est-il qualifié d'off-policy ?: Le Q-learning apprend la valeur de la politique optimale même lorsque l'agent suit une politique exploratoire différente pour recueillir l'expérience. Le comportement utilisé pour collecter les données et la politique évaluée peuvent différer, ce qui est la signification d'off-policy.