ScholarGate
Asistente

Aprendizaje por Refuerzo Profundo

El aprendizaje por refuerzo profundo utiliza redes neuronales para aproximar funciones de valor o políticas, escalando el aprendizaje por refuerzo a entradas de alta dimensión como imágenes y juegos complejos.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

El aprendizaje por refuerzo profundo es un aprendizaje por refuerzo en el que las redes neuronales profundas sirven como aproximadores de funciones para funciones de valor, políticas o modelos, lo que permite a los agentes aprender directamente de observaciones crudas de alta dimensión en lugar de características de estado diseñadas manualmente.

Scope

Este tema abarca la combinación del aprendizaje por refuerzo con redes neuronales profundas: redes Q profundas con repetición de experiencias y redes objetivo para la estabilidad, métodos de actor-crítico profundo y de optimización de políticas, y la integración del aprendizaje con la búsqueda como en los sistemas de juego. Aborda los desafíos de estabilidad del entrenamiento de funciones de valor con aproximación de funciones y los logros históricos resultantes.

Core questions

  • ¿Cómo permiten las redes neuronales que el aprendizaje por refuerzo maneje entradas crudas de alta dimensión?
  • ¿Por qué la combinación del aprendizaje de valor con la aproximación de funciones tiende a ser inestable?
  • ¿Qué técnicas, como la repetición de experiencias y las redes objetivo, estabilizan el entrenamiento?
  • ¿Cómo se combinan el aprendizaje y la búsqueda en los agentes de juego?

Key theories

Redes Q profundas
La aproximación de los valores de acción con una red profunda, estabilizada por la repetición de experiencias y una red objetivo que se actualiza lentamente, permitió que una única arquitectura aprendiera muchos juegos de Atari desde los píxeles hasta el nivel humano.
Aprendizaje combinado con búsqueda
El emparejamiento de redes profundas de política y valor con la búsqueda de árbol Monte Carlo y el entrenamiento a través del autoaprendizaje produjo sistemas que dominaron el juego de Go, superando a los jugadores humanos más fuertes.
Estabilidad de la aproximación de funciones
La combinación de bootstrapping, aprendizaje fuera de política y aproximación de funciones puede hacer que el entrenamiento diverja, por lo que el aprendizaje por refuerzo profundo se basa en técnicas cuidadosas para mantener estables las estimaciones de valor.

Clinical relevance

El aprendizaje por refuerzo profundo produjo algunas de las demostraciones más visibles de inteligencia artificial, incluyendo el juego sobrehumano y avances en robótica y control; sus técnicas informan el ajuste fino impulsado por recompensas de modelos grandes; su alto costo de muestreo e inestabilidad de entrenamiento siguen siendo limitaciones prácticas importantes.

History

La red Q profunda de 2015 demostró que el aprendizaje por refuerzo con aproximación de función profunda podía aprender directamente de los píxeles, y los sistemas de juego de Go de 2016 combinaron redes profundas con búsqueda y autoaprendizaje para derrotar a los mejores jugadores humanos. Estos resultados, basándose en los fundamentos del aprendizaje por refuerzo codificados por Sutton y Barto, establecieron el aprendizaje por refuerzo profundo como una dirección de investigación importante.

Key figures

  • Volodymyr Mnih
  • David Silver
  • Demis Hassabis

Related topics

Seminal works

  • mnih2015
  • silver2016
  • sutton2018

Frequently asked questions

¿Qué demostró la red Q profunda?
Demostró que un único agente de red neuronal podía aprender a jugar docenas de juegos diferentes de Atari directamente a partir de los píxeles de la pantalla y la puntuación, alcanzando un rendimiento a nivel humano en muchos de ellos sin una sintonización específica del juego, utilizando la repetición de experiencias y una red objetivo para la estabilidad.
¿Por qué el aprendizaje por refuerzo profundo suele ser inestable?
La combinación de estimaciones de valor auto-referenciadas (bootstrapped), datos fuera de política y aproximación de redes neuronales puede amplificar los errores y hacer que el entrenamiento diverja. Se utilizan técnicas como la repetición de experiencias, las redes objetivo y la elección cuidadosa de la tasa de aprendizaje para mantener la estabilidad del aprendizaje.

Methods for this concept

Related concepts