ScholarGate
Asistente

Métodos Basados en Valores

Los métodos basados en valores aprenden cuán buenos son los estados y las acciones, y luego actúan de forma codiciosa con respecto a esas estimaciones para obtener una buena política.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Los métodos basados en valores estiman el retorno esperado de los estados o pares estado-acción y derivan una política eligiendo las acciones con el valor estimado más alto; aprenden estas estimaciones incrementalmente a partir de la experiencia, a menudo mediante actualizaciones de diferencia temporal que ajustan una predicción hacia una posterior y más informada.

Scope

Este tema abarca algoritmos de aprendizaje por refuerzo que se centran en funciones de valor: la estimación de Monte Carlo a partir de episodios completos, el aprendizaje por diferencia temporal que se auto-impulsa a partir de estimaciones posteriores, y los algoritmos de control Sarsa y Q-learning. Aborda el aprendizaje on-policy versus off-policy, la exploración a través de estrategias como epsilon-greedy, y el uso de la aproximación de funciones cuando los estados son demasiados para enumerar.

Core questions

  • ¿Cómo se aprenden los valores de las acciones a partir de la experiencia?
  • ¿Cómo combina el aprendizaje por diferencia temporal el muestreo con el bootstrapping?
  • ¿Cuál es la diferencia entre el aprendizaje on-policy y off-policy?
  • ¿Cómo se maneja la exploración cuando se actúa de forma codiciosa sobre las estimaciones de valor?

Key theories

Aprendizaje por diferencia temporal
Los métodos de diferencia temporal actualizan una estimación de valor hacia la recompensa observada más la estimación descontada del siguiente estado, aprendiendo en línea a partir de episodios incompletos sin un modelo del entorno.
Q-learning
El Q-learning estima el valor de la mejor acción en cada estado y converge a la función de valor-acción óptima independientemente de la política utilizada para recopilar experiencia, lo que lo convierte en un método off-policy fundamental.
Aproximación de valor con redes profundas
La representación de la función de valor-acción con una red profunda permite que los métodos basados en valores manejen entradas de alta dimensión, como píxeles en bruto, como en la red Q profunda que aprendió a jugar muchos juegos de Atari.

Clinical relevance

Los métodos basados en valores se encuentran entre los algoritmos de aprendizaje por refuerzo más utilizados, y el Q-learning combinado con redes profundas produjo los primeros agentes en alcanzar un rendimiento a nivel humano directamente a partir de entradas sensoriales de alta dimensión, demostrando cómo la estimación de valor se escala a tareas complejas.

History

Sutton introdujo el aprendizaje por diferencia temporal en 1988, y el Q-learning de Watkins en 1989 proporcionó un método de control off-policy convergente. La combinación de Q-learning con redes profundas en la red Q profunda de 2015 llevó el aprendizaje por refuerzo basado en valores a problemas de alta dimensión y lanzó la era moderna del aprendizaje por refuerzo profundo.

Key figures

  • Richard Sutton
  • Christopher Watkins
  • Volodymyr Mnih

Related topics

Seminal works

  • sutton2018
  • mnih2015
  • watkins1992

Frequently asked questions

¿De qué se auto-impulsa el aprendizaje por diferencia temporal?
Actualiza el valor del estado actual utilizando la recompensa observada más su propia estimación del valor del siguiente estado. Debido a que se basa en parte en otra estimación en lugar de esperar el resultado final, puede aprender en línea y a partir de episodios incompletos.
¿Por qué se llama off-policy al Q-learning?
El Q-learning aprende el valor de la política óptima incluso mientras el agente sigue una política exploratoria diferente para recopilar experiencia. El comportamiento utilizado para recopilar datos y la política que se evalúa pueden diferir, lo cual es el significado de off-policy.

Methods for this concept

Related concepts