Métodos Basados en Valores
Los métodos basados en valores aprenden cuán buenos son los estados y las acciones, y luego actúan de forma codiciosa con respecto a esas estimaciones para obtener una buena política.
Definition
Los métodos basados en valores estiman el retorno esperado de los estados o pares estado-acción y derivan una política eligiendo las acciones con el valor estimado más alto; aprenden estas estimaciones incrementalmente a partir de la experiencia, a menudo mediante actualizaciones de diferencia temporal que ajustan una predicción hacia una posterior y más informada.
Scope
Este tema abarca algoritmos de aprendizaje por refuerzo que se centran en funciones de valor: la estimación de Monte Carlo a partir de episodios completos, el aprendizaje por diferencia temporal que se auto-impulsa a partir de estimaciones posteriores, y los algoritmos de control Sarsa y Q-learning. Aborda el aprendizaje on-policy versus off-policy, la exploración a través de estrategias como epsilon-greedy, y el uso de la aproximación de funciones cuando los estados son demasiados para enumerar.
Core questions
- ¿Cómo se aprenden los valores de las acciones a partir de la experiencia?
- ¿Cómo combina el aprendizaje por diferencia temporal el muestreo con el bootstrapping?
- ¿Cuál es la diferencia entre el aprendizaje on-policy y off-policy?
- ¿Cómo se maneja la exploración cuando se actúa de forma codiciosa sobre las estimaciones de valor?
Key theories
- Aprendizaje por diferencia temporal
- Los métodos de diferencia temporal actualizan una estimación de valor hacia la recompensa observada más la estimación descontada del siguiente estado, aprendiendo en línea a partir de episodios incompletos sin un modelo del entorno.
- Q-learning
- El Q-learning estima el valor de la mejor acción en cada estado y converge a la función de valor-acción óptima independientemente de la política utilizada para recopilar experiencia, lo que lo convierte en un método off-policy fundamental.
- Aproximación de valor con redes profundas
- La representación de la función de valor-acción con una red profunda permite que los métodos basados en valores manejen entradas de alta dimensión, como píxeles en bruto, como en la red Q profunda que aprendió a jugar muchos juegos de Atari.
Clinical relevance
Los métodos basados en valores se encuentran entre los algoritmos de aprendizaje por refuerzo más utilizados, y el Q-learning combinado con redes profundas produjo los primeros agentes en alcanzar un rendimiento a nivel humano directamente a partir de entradas sensoriales de alta dimensión, demostrando cómo la estimación de valor se escala a tareas complejas.
History
Sutton introdujo el aprendizaje por diferencia temporal en 1988, y el Q-learning de Watkins en 1989 proporcionó un método de control off-policy convergente. La combinación de Q-learning con redes profundas en la red Q profunda de 2015 llevó el aprendizaje por refuerzo basado en valores a problemas de alta dimensión y lanzó la era moderna del aprendizaje por refuerzo profundo.
Key figures
- Richard Sutton
- Christopher Watkins
- Volodymyr Mnih
Related topics
Seminal works
- sutton2018
- mnih2015
- watkins1992
Frequently asked questions
- ¿De qué se auto-impulsa el aprendizaje por diferencia temporal?
- Actualiza el valor del estado actual utilizando la recompensa observada más su propia estimación del valor del siguiente estado. Debido a que se basa en parte en otra estimación en lugar de esperar el resultado final, puede aprender en línea y a partir de episodios incompletos.
- ¿Por qué se llama off-policy al Q-learning?
- El Q-learning aprende el valor de la política óptima incluso mientras el agente sigue una política exploratoria diferente para recopilar experiencia. El comportamiento utilizado para recopilar datos y la política que se evalúa pueden diferir, lo cual es el significado de off-policy.