¿Qué es la propiedad de Markov?

La propiedad de Markov establece que la evolución futura del proceso depende solo del estado y la acción actuales, no de la historia completa de cómo el agente llegó allí. Esto convierte al estado actual en un resumen suficiente para la toma de decisiones.

¿Por qué se utiliza un factor de descuento?

El descuento pondera las recompensas más cercanas con mayor fuerza que las distantes. Mantiene el retorno total finito en horizontes largos o infinitos y codifica una preferencia por una recompensa más temprana, al tiempo que controla la antelación con la que el agente planifica eficazmente.

Procesos de Decisión de Markov

Los procesos de decisión de Markov formalizan la toma de decisiones secuencial, modelando un agente que elige acciones en estados para maximizar la recompensa a largo plazo.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Un proceso de decisión de Markov es un modelo de toma de decisiones secuencial definido por un conjunto de estados, acciones disponibles, probabilidades de transición entre estados dadas las acciones y recompensas, en el que el objetivo es encontrar una política que maximice la recompensa acumulativa descontada esperada.

Scope

Este tema cubre el marco matemático subyacente al aprendizaje por refuerzo: estados, acciones, probabilidades de transición, recompensas y el factor de descuento; políticas y funciones de valor; las ecuaciones de optimalidad de Bellman; y los métodos de programación dinámica de iteración de valor e iteración de políticas que resuelven un proceso conocido. Asume la propiedad de Markov de que el futuro depende solo del estado actual.

Core questions

¿Qué componentes definen un proceso de decisión de Markov?
¿Cómo relacionan las ecuaciones de Bellman el valor de un estado con sus sucesores?
¿Cómo encuentran las políticas óptimas la iteración de valor y la iteración de políticas?
¿Qué asume la propiedad de Markov sobre el entorno?

Key theories

Ecuaciones de optimalidad de Bellman: El valor de actuar de forma óptima desde un estado es igual a la mejor recompensa inmediata más el valor descontado del estado resultante, una relación recursiva cuya solución define la política óptima.
Programación dinámica: Cuando el proceso es completamente conocido, la iteración de valor y la iteración de políticas calculan funciones de valor y políticas óptimas aplicando repetidamente la actualización de Bellman, garantizando la convergencia al óptimo.
Descuento y retorno: Las recompensas futuras se ponderan mediante un factor de descuento para que el retorno total esté bien definido y las recompensas más cercanas cuenten más, lo que moldea la antelación con la que el agente planifica eficazmente.

Clinical relevance

Los procesos de decisión de Markov son la columna vertebral conceptual del aprendizaje por refuerzo y de gran parte de la investigación de operaciones y el control, proporcionando el lenguaje de estados, acciones y valor que casi todos los algoritmos de aprendizaje aproximan cuando el modelo es desconocido o demasiado grande para resolverlo exactamente.

History

El marco surgió de la programación dinámica de Bellman en la década de 1950 y del trabajo de iteración de políticas de Howard, proporcionando métodos de solución exactos para procesos de decisión conocidos. El aprendizaje por refuerzo adoptó posteriormente el proceso de decisión de Markov como su formalismo estándar para el caso en que las transiciones y las recompensas deben aprenderse de la experiencia.

Key figures

Richard Bellman
Ronald Howard
Richard Sutton

Seminal works

sutton2018
bellman1957
puterman1994

Frequently asked questions

¿Qué es la propiedad de Markov?: La propiedad de Markov establece que la evolución futura del proceso depende solo del estado y la acción actuales, no de la historia completa de cómo el agente llegó allí. Esto convierte al estado actual en un resumen suficiente para la toma de decisiones.
¿Por qué se utiliza un factor de descuento?: El descuento pondera las recompensas más cercanas con mayor fuerza que las distantes. Mantiene el retorno total finito en horizontes largos o infinitos y codifica una preferencia por una recompensa más temprana, al tiempo que controla la antelación con la que el agente planifica eficazmente.