为什么直接优化策略而不是价值函数？

直接策略优化自然地处理随机策略和连续动作空间，而从价值函数中提取策略则显得笨拙。它还允许行为的平滑、渐进式改进，这适用于控制和机器人任务。

什么是Actor-Critic方法？

Actor-Critic方法维护两个学习组件：一个Actor（执行者），即选择动作的策略；一个Critic（评论者），即评估这些动作好坏的价值估计。评论者的反馈降低了策略更新的方差，使学习更稳定。

策略梯度方法通过提升预期奖励的梯度来直接优化参数化策略，而不是从价值函数中推导出策略。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

策略梯度方法将策略表示为参数的可微分函数，并沿着增加预期累积奖励的方向更新这些参数，通过智能体与环境交互的采样轨迹来估计所需的梯度。

本主题涵盖了直接调整策略参数的强化学习方法：策略梯度定理和REINFORCE算法，使用基线和优势估计来降低方差，结合学习策略和学习价值函数的Actor-Critic方法，以及现代的信任区域和近端策略优化。它解释了为什么直接策略优化适用于连续动作和随机策略。

策略梯度定理: 预期奖励相对于策略参数的梯度可以表示为轨迹上的期望，从而允许从采样经验中进行估计，而无需对环境进行微分。
Actor-Critic方法: 将通过梯度上升改进的策略与提供低方差评论的学习价值函数相结合，产生了Actor-Critic方法，其学习比纯策略梯度更稳定和高效。
大规模策略优化: 基于策略的学习，通常与价值估计和搜索相结合，是诸如通过自我对弈掌握围棋的围棋系统等大规模成功的基础。

策略梯度和Actor-Critic方法是连续控制、机器人技术以及通过人类反馈微调大型语言模型中强化学习的标准方法，因为它们直接优化随机策略并处理基于价值的方法难以应对的动作空间。

Williams于1992年提出的REINFORCE算法提供了一种直接估计策略梯度的方法，而1990年代后期的策略梯度定理则提供了严谨的基础。Actor-Critic架构以及后来的信任区域和近端方法提高了稳定性，使策略优化成为现代大规模强化学习的核心。

为什么直接优化策略而不是价值函数？: 直接策略优化自然地处理随机策略和连续动作空间，而从价值函数中提取策略则显得笨拙。它还允许行为的平滑、渐进式改进，这适用于控制和机器人任务。
什么是Actor-Critic方法？: Actor-Critic方法维护两个学习组件：一个Actor（执行者），即选择动作的策略；一个Critic（评论者），即评估这些动作好坏的价值估计。评论者的反馈降低了策略更新的方差，使学习更稳定。