ScholarGate
Asistente

Procesos de Decisión de Markov

Los procesos de decisión de Markov formalizan la toma de decisiones secuencial, modelando un agente que elige acciones en estados para maximizar la recompensa a largo plazo.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Un proceso de decisión de Markov es un modelo de toma de decisiones secuencial definido por un conjunto de estados, acciones disponibles, probabilidades de transición entre estados dadas las acciones y recompensas, en el que el objetivo es encontrar una política que maximice la recompensa acumulativa descontada esperada.

Scope

Este tema cubre el marco matemático subyacente al aprendizaje por refuerzo: estados, acciones, probabilidades de transición, recompensas y el factor de descuento; políticas y funciones de valor; las ecuaciones de optimalidad de Bellman; y los métodos de programación dinámica de iteración de valor e iteración de políticas que resuelven un proceso conocido. Asume la propiedad de Markov de que el futuro depende solo del estado actual.

Core questions

  • ¿Qué componentes definen un proceso de decisión de Markov?
  • ¿Cómo relacionan las ecuaciones de Bellman el valor de un estado con sus sucesores?
  • ¿Cómo encuentran las políticas óptimas la iteración de valor y la iteración de políticas?
  • ¿Qué asume la propiedad de Markov sobre el entorno?

Key theories

Ecuaciones de optimalidad de Bellman
El valor de actuar de forma óptima desde un estado es igual a la mejor recompensa inmediata más el valor descontado del estado resultante, una relación recursiva cuya solución define la política óptima.
Programación dinámica
Cuando el proceso es completamente conocido, la iteración de valor y la iteración de políticas calculan funciones de valor y políticas óptimas aplicando repetidamente la actualización de Bellman, garantizando la convergencia al óptimo.
Descuento y retorno
Las recompensas futuras se ponderan mediante un factor de descuento para que el retorno total esté bien definido y las recompensas más cercanas cuenten más, lo que moldea la antelación con la que el agente planifica eficazmente.

Clinical relevance

Los procesos de decisión de Markov son la columna vertebral conceptual del aprendizaje por refuerzo y de gran parte de la investigación de operaciones y el control, proporcionando el lenguaje de estados, acciones y valor que casi todos los algoritmos de aprendizaje aproximan cuando el modelo es desconocido o demasiado grande para resolverlo exactamente.

History

El marco surgió de la programación dinámica de Bellman en la década de 1950 y del trabajo de iteración de políticas de Howard, proporcionando métodos de solución exactos para procesos de decisión conocidos. El aprendizaje por refuerzo adoptó posteriormente el proceso de decisión de Markov como su formalismo estándar para el caso en que las transiciones y las recompensas deben aprenderse de la experiencia.

Key figures

  • Richard Bellman
  • Ronald Howard
  • Richard Sutton

Related topics

Seminal works

  • sutton2018
  • bellman1957
  • puterman1994

Frequently asked questions

¿Qué es la propiedad de Markov?
La propiedad de Markov establece que la evolución futura del proceso depende solo del estado y la acción actuales, no de la historia completa de cómo el agente llegó allí. Esto convierte al estado actual en un resumen suficiente para la toma de decisiones.
¿Por qué se utiliza un factor de descuento?
El descuento pondera las recompensas más cercanas con mayor fuerza que las distantes. Mantiene el retorno total finito en horizontes largos o infinitos y codifica una preferencia por una recompensa más temprana, al tiempo que controla la antelación con la que el agente planifica eficazmente.

Methods for this concept

Related concepts