¿Por qué optimizar la política directamente en lugar de una función de valor?

La optimización directa de la política maneja de forma natural las políticas estocásticas y los espacios de acción continuos, donde extraer una política de una función de valor es complicado. También permite una mejora suave e incremental del comportamiento, lo que se adapta a las tareas de control y robótica.

¿Qué es un método actor-crítico?

Un método actor-crítico mantiene dos componentes aprendidos: un actor, la política que selecciona las acciones, y un crítico, una estimación de valor que juzga la calidad de esas acciones. La retroalimentación del crítico reduce la varianza de las actualizaciones de la política, haciendo que el aprendizaje sea más estable.

Métodos de Gradiente de Política

Los métodos de gradiente de política optimizan directamente una política parametrizada ascendiendo el gradiente de la recompensa esperada, en lugar de derivar la política de una función de valor.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Los métodos de gradiente de política representan la política como una función diferenciable de parámetros y actualizan esos parámetros en la dirección que aumenta la recompensa acumulada esperada, estimando el gradiente requerido a partir de trayectorias muestreadas de la interacción del agente con el entorno.

Scope

Este tema cubre los métodos de aprendizaje por refuerzo que ajustan directamente los parámetros de la política: el teorema del gradiente de política y el algoritmo REINFORCE, el uso de líneas base y estimaciones de ventaja para reducir la varianza, los métodos actor-crítico que combinan una política aprendida con una función de valor aprendida, y la optimización de política proximal y de región de confianza modernas. Aborda por qué la optimización directa de la política es adecuada para acciones continuas y políticas estocásticas.

Core questions

¿Cómo se puede mejorar una política directamente mediante el ascenso de gradiente?
¿Qué expresa el teorema del gradiente de política?
¿Cómo reducen las líneas base y los críticos la varianza de las estimaciones de gradiente?
¿Por qué los métodos de gradiente de política son adecuados para espacios de acción continuos?

Key theories

El teorema del gradiente de política: El gradiente de la recompensa esperada con respecto a los parámetros de la política puede escribirse como una expectativa sobre las trayectorias, lo que permite estimarlo a partir de la experiencia muestreada sin diferenciar el entorno.
Métodos actor-crítico: La combinación de una política que se mejora mediante el ascenso de gradiente con una función de valor aprendida que proporciona una crítica de baja varianza produce métodos actor-crítico que aprenden de forma más estable y eficiente que los gradientes de política puros.
Optimización de políticas a escala: El aprendizaje basado en políticas, a menudo combinado con la estimación de valores y la búsqueda, subyace a los éxitos a gran escala, como los sistemas de juego de Go que dominaron el juego a través del autoaprendizaje.

Clinical relevance

Los métodos de gradiente de política y actor-crítico son el enfoque estándar para el aprendizaje por refuerzo en control continuo, robótica y el ajuste fino de grandes modelos de lenguaje a partir de la retroalimentación humana, porque optimizan directamente las políticas estocásticas y manejan espacios de acción con los que los métodos basados en valores tienen dificultades.

History

El algoritmo REINFORCE de Williams en 1992 proporcionó una forma directa de estimar los gradientes de política, y el teorema del gradiente de política de finales de la década de 1990 ofreció una base rigurosa. Las arquitecturas actor-crítico y, posteriormente, los métodos de región de confianza y proximales mejoraron la estabilidad, haciendo que la optimización de política fuera central para el aprendizaje por refuerzo moderno a gran escala.

Key figures

Ronald Williams
Richard Sutton
David Silver

Seminal works

sutton2018
silver2016
williams1992

Frequently asked questions

¿Por qué optimizar la política directamente en lugar de una función de valor?: La optimización directa de la política maneja de forma natural las políticas estocásticas y los espacios de acción continuos, donde extraer una política de una función de valor es complicado. También permite una mejora suave e incremental del comportamiento, lo que se adapta a las tareas de control y robótica.
¿Qué es un método actor-crítico?: Un método actor-crítico mantiene dos componentes aprendidos: un actor, la política que selecciona las acciones, y un crítico, una estimación de valor que juzga la calidad de esas acciones. La retroalimentación del crítico reduce la varianza de las actualizaciones de la política, haciendo que el aprendizaje sea más estable.