¿De qué se auto-impulsa el aprendizaje por diferencia temporal?

Actualiza el valor del estado actual utilizando la recompensa observada más su propia estimación del valor del siguiente estado. Debido a que se basa en parte en otra estimación en lugar de esperar el resultado final, puede aprender en línea y a partir de episodios incompletos.

¿Por qué se llama off-policy al Q-learning?

El Q-learning aprende el valor de la política óptima incluso mientras el agente sigue una política exploratoria diferente para recopilar experiencia. El comportamiento utilizado para recopilar datos y la política que se evalúa pueden diferir, lo cual es el significado de off-policy.

Métodos Basados en Valores

Los métodos basados en valores aprenden cuán buenos son los estados y las acciones, y luego actúan de forma codiciosa con respecto a esas estimaciones para obtener una buena política.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Los métodos basados en valores estiman el retorno esperado de los estados o pares estado-acción y derivan una política eligiendo las acciones con el valor estimado más alto; aprenden estas estimaciones incrementalmente a partir de la experiencia, a menudo mediante actualizaciones de diferencia temporal que ajustan una predicción hacia una posterior y más informada.

Scope

Este tema abarca algoritmos de aprendizaje por refuerzo que se centran en funciones de valor: la estimación de Monte Carlo a partir de episodios completos, el aprendizaje por diferencia temporal que se auto-impulsa a partir de estimaciones posteriores, y los algoritmos de control Sarsa y Q-learning. Aborda el aprendizaje on-policy versus off-policy, la exploración a través de estrategias como epsilon-greedy, y el uso de la aproximación de funciones cuando los estados son demasiados para enumerar.

Core questions

¿Cómo se aprenden los valores de las acciones a partir de la experiencia?
¿Cómo combina el aprendizaje por diferencia temporal el muestreo con el bootstrapping?
¿Cuál es la diferencia entre el aprendizaje on-policy y off-policy?
¿Cómo se maneja la exploración cuando se actúa de forma codiciosa sobre las estimaciones de valor?

Key theories

Aprendizaje por diferencia temporal: Los métodos de diferencia temporal actualizan una estimación de valor hacia la recompensa observada más la estimación descontada del siguiente estado, aprendiendo en línea a partir de episodios incompletos sin un modelo del entorno.
Q-learning: El Q-learning estima el valor de la mejor acción en cada estado y converge a la función de valor-acción óptima independientemente de la política utilizada para recopilar experiencia, lo que lo convierte en un método off-policy fundamental.
Aproximación de valor con redes profundas: La representación de la función de valor-acción con una red profunda permite que los métodos basados en valores manejen entradas de alta dimensión, como píxeles en bruto, como en la red Q profunda que aprendió a jugar muchos juegos de Atari.

Clinical relevance

Los métodos basados en valores se encuentran entre los algoritmos de aprendizaje por refuerzo más utilizados, y el Q-learning combinado con redes profundas produjo los primeros agentes en alcanzar un rendimiento a nivel humano directamente a partir de entradas sensoriales de alta dimensión, demostrando cómo la estimación de valor se escala a tareas complejas.

History

Sutton introdujo el aprendizaje por diferencia temporal en 1988, y el Q-learning de Watkins en 1989 proporcionó un método de control off-policy convergente. La combinación de Q-learning con redes profundas en la red Q profunda de 2015 llevó el aprendizaje por refuerzo basado en valores a problemas de alta dimensión y lanzó la era moderna del aprendizaje por refuerzo profundo.

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

¿De qué se auto-impulsa el aprendizaje por diferencia temporal?: Actualiza el valor del estado actual utilizando la recompensa observada más su propia estimación del valor del siguiente estado. Debido a que se basa en parte en otra estimación en lugar de esperar el resultado final, puede aprender en línea y a partir de episodios incompletos.
¿Por qué se llama off-policy al Q-learning?: El Q-learning aprende el valor de la política óptima incluso mientras el agente sigue una política exploratoria diferente para recopilar experiencia. El comportamiento utilizado para recopilar datos y la política que se evalúa pueden diferir, lo cual es el significado de off-policy.