¿En qué se diferencia el aprendizaje por refuerzo del aprendizaje supervisado?

Al aprendizaje supervisado se le indica la salida correcta para cada entrada. A un agente de aprendizaje por refuerzo solo se le da una señal de recompensa que evalúa los resultados de sus acciones, debe descubrir un buen comportamiento mediante prueba y error, y debe lidiar con recompensas que llegan mucho después de las acciones que las obtuvieron.

¿Qué es el equilibrio entre exploración y explotación?

Un agente debe elegir entre explotar acciones que se sabe que dan una buena recompensa y explorar acciones no probadas que podrían ser aún mejores. Muy poca exploración puede conducir a una estrategia subóptima, mientras que demasiada desperdicia oportunidades, por lo que equilibrar ambas es fundamental para el aprendizaje por refuerzo.

Aprendizaje por Refuerzo

El aprendizaje por refuerzo entrena a un agente para tomar secuencias de decisiones mediante prueba y error, maximizando la recompensa acumulativa a través de la interacción con un entorno.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El aprendizaje por refuerzo es el problema de aprender una política, un mapeo de situaciones a acciones, que maximiza la recompensa acumulativa esperada, donde el agente aprende de las consecuencias de sus propias acciones en lugar de ejemplos etiquetados de comportamiento correcto.

Scope

Esta área abarca el aprendizaje para actuar: el marco del proceso de decisión de Markov de estados, acciones, recompensas y transiciones; funciones de valor y las ecuaciones de Bellman; métodos basados en valor como el aprendizaje por diferencia temporal y el Q-learning; métodos de gradiente de política que optimizan una política directamente; y la combinación de estas ideas con redes neuronales profundas. Aborda el equilibrio entre exploración y explotación y el desafío de la recompensa retardada.

Sub-topics

Core questions

¿Cómo puede un agente aprender un buen comportamiento solo a partir de señales de recompensa?
¿Cómo se relacionan el valor a largo plazo y la recompensa inmediata a través de las ecuaciones de Bellman?
¿Cómo debe un agente equilibrar la exploración de nuevas acciones con la explotación de las acciones buenas conocidas?
¿Cómo se asigna el crédito a acciones anteriores por recompensas posteriores?

Key theories

Procesos de decisión de Markov y funciones de valor: La interacción se modela como un proceso de decisión de Markov, y las funciones de valor resumen la recompensa futura esperada, satisfaciendo las ecuaciones de Bellman que subyacen a casi todos los algoritmos de aprendizaje por refuerzo.
Aprendizaje por diferencia temporal: Los agentes pueden aprender estimaciones de valor mediante bootstrapping, actualizando las predicciones hacia predicciones posteriores más la recompensa observada, lo que permite el aprendizaje a partir de episodios incompletos y experiencia en línea.
Aprendizaje por refuerzo profundo: El uso de redes neuronales profundas para aproximar funciones de valor o políticas permite que el aprendizaje por refuerzo se escale a entradas de alta dimensión, como lo demuestran los agentes que aprendieron a jugar juegos de Atari y el juego de Go.

Clinical relevance

El aprendizaje por refuerzo aborda la toma de decisiones secuencial bajo incertidumbre y ha impulsado avances en el juego, la robótica, la recomendación y el control, así como la alineación de grandes modelos de lenguaje a través del aprendizaje a partir de la retroalimentación; su naturaleza de prueba y error y la dificultad de especificar la recompensa hacen que el aprendizaje seguro y eficiente en muestras sean preocupaciones activas.

History

El aprendizaje por refuerzo unificó ideas del control óptimo, la programación dinámica y el aprendizaje animal. El aprendizaje por diferencia temporal y el Q-learning surgieron en las décadas de 1980 y principios de 1990, y el libro de texto de Sutton y Barto codificó el campo. La combinación de la década de 2010 con el aprendizaje profundo produjo agentes que alcanzaron un nivel de juego humano en juegos de Atari y un nivel de juego sobrehumano en Go.

Debates

Eficiencia de la muestra y diseño de la recompensa: El aprendizaje por refuerzo puede requerir una interacción enorme y es sensible a cómo se especifica la recompensa, lo que provoca un debate sobre cómo hacerlo más eficiente en datos y cómo evitar que los agentes exploten recompensas mal especificadas.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

¿En qué se diferencia el aprendizaje por refuerzo del aprendizaje supervisado?: Al aprendizaje supervisado se le indica la salida correcta para cada entrada. A un agente de aprendizaje por refuerzo solo se le da una señal de recompensa que evalúa los resultados de sus acciones, debe descubrir un buen comportamiento mediante prueba y error, y debe lidiar con recompensas que llegan mucho después de las acciones que las obtuvieron.
¿Qué es el equilibrio entre exploración y explotación?: Un agente debe elegir entre explotar acciones que se sabe que dan una buena recompensa y explorar acciones no probadas que podrían ser aún mejores. Muy poca exploración puede conducir a una estrategia subóptima, mientras que demasiada desperdicia oportunidades, por lo que equilibrar ambas es fundamental para el aprendizaje por refuerzo.