ScholarGate
助手

马尔可夫决策过程

马尔可夫决策过程将序贯决策形式化,建模一个智能体在不同状态下选择行动以最大化长期回报。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

马尔可夫决策过程是一种序贯决策模型,由状态集合、可用行动、给定行动下状态间的转移概率以及奖励定义,其目标是找到一个能最大化预期累积折扣奖励的策略。

Scope

本主题涵盖强化学习的数学框架:状态、行动、转移概率、奖励和折扣因子;策略和价值函数;贝尔曼最优方程;以及解决已知过程的价值迭代和策略迭代等动态规划方法。它假设未来只取决于当前状态的马尔可夫性质。

Core questions

  • 哪些组成部分定义了马尔可夫决策过程?
  • 贝尔曼方程如何将一个状态的价值与其后继状态关联起来?
  • 价值迭代和策略迭代如何找到最优策略?
  • 马尔可夫性质对环境做了什么假设?

Key theories

贝尔曼最优方程
从一个状态最优行动的价值等于最佳即时奖励加上结果状态的折扣价值,这是一个递归关系,其解定义了最优策略。
动态规划
当过程完全已知时,价值迭代和策略迭代通过重复应用贝尔曼更新来计算最优价值函数和策略,保证收敛到最优解。
折扣与回报
未来的奖励通过折扣因子加权,使得总回报定义明确,并且较近的奖励权重更大,从而影响智能体有效规划的远近。

Clinical relevance

马尔可夫决策过程是强化学习以及许多运筹学和控制论的概念支柱,它提供了状态、行动和价值的语言,当模型未知或规模过大无法精确求解时,几乎所有学习算法都会对其进行近似。

History

该框架起源于20世纪50年代贝尔曼的动态规划和霍华德的策略迭代工作,为已知决策过程提供了精确的求解方法。强化学习后来采纳马尔可夫决策过程作为其标准形式,用于处理必须从经验中学习转移和奖励的情况。

Key figures

  • Richard Bellman
  • Ronald Howard
  • Richard Sutton

Related topics

Seminal works

  • sutton2018
  • bellman1957
  • puterman1994

Frequently asked questions

什么是马尔可夫性质?
马尔可夫性质指出,过程的未来演变仅取决于当前状态和行动,而不取决于智能体如何到达那里的完整历史。这使得当前状态成为决策的充分总结。
为什么要使用折扣因子?
折扣因子使较近的奖励比遥远的奖励权重更大。它使长期或无限时间范围内的总回报保持有限,并编码了对更早奖励的偏好,同时还控制了智能体有效规划的未来范围。

Methods for this concept

Related concepts