什么是马尔可夫性质？

马尔可夫性质指出，过程的未来演变仅取决于当前状态和行动，而不取决于智能体如何到达那里的完整历史。这使得当前状态成为决策的充分总结。

为什么要使用折扣因子？

折扣因子使较近的奖励比遥远的奖励权重更大。它使长期或无限时间范围内的总回报保持有限，并编码了对更早奖励的偏好，同时还控制了智能体有效规划的未来范围。

马尔可夫决策过程将序贯决策形式化，建模一个智能体在不同状态下选择行动以最大化长期回报。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

马尔可夫决策过程是一种序贯决策模型，由状态集合、可用行动、给定行动下状态间的转移概率以及奖励定义，其目标是找到一个能最大化预期累积折扣奖励的策略。

本主题涵盖强化学习的数学框架：状态、行动、转移概率、奖励和折扣因子；策略和价值函数；贝尔曼最优方程；以及解决已知过程的价值迭代和策略迭代等动态规划方法。它假设未来只取决于当前状态的马尔可夫性质。

马尔可夫决策过程是强化学习以及许多运筹学和控制论的概念支柱，它提供了状态、行动和价值的语言，当模型未知或规模过大无法精确求解时，几乎所有学习算法都会对其进行近似。

该框架起源于20世纪50年代贝尔曼的动态规划和霍华德的策略迭代工作，为已知决策过程提供了精确的求解方法。强化学习后来采纳马尔可夫决策过程作为其标准形式，用于处理必须从经验中学习转移和奖励的情况。

什么是马尔可夫性质？: 马尔可夫性质指出，过程的未来演变仅取决于当前状态和行动，而不取决于智能体如何到达那里的完整历史。这使得当前状态成为决策的充分总结。
为什么要使用折扣因子？: 折扣因子使较近的奖励比遥远的奖励权重更大。它使长期或无限时间范围内的总回报保持有限，并编码了对更早奖励的偏好，同时还控制了智能体有效规划的未来范围。