强化学习与监督学习有何不同？

监督学习被告知每个输入的正确输出。强化学习智能体只获得一个奖励信号来评估其行动的结果，必须通过试错发现良好行为，并且必须应对在获得奖励的行动之后很久才到达的奖励。

什么是探索-利用权衡？

智能体必须在利用已知能带来良好奖励的行动和探索可能更好的未尝试行动之间做出选择。探索不足可能导致陷入次优策略，而探索过多则会浪费机会，因此平衡两者是强化学习的核心。

强化学习通过试错训练智能体做出决策序列，通过与环境的交互最大化累积奖励。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

强化学习是学习一种策略（即从情境到动作的映射）以最大化预期累积奖励的问题，其中智能体通过自身行为的后果而非标记正确的行为示例进行学习。

该领域涵盖了学习如何行动：马尔可夫决策过程框架，包括状态、动作、奖励和转换；价值函数和贝尔曼方程；基于价值的方法，如时序差分学习和Q学习；直接优化策略的策略梯度方法；以及这些思想与深度神经网络的结合。它解决了探索-利用权衡以及延迟奖励的挑战。

马尔可夫决策过程和价值函数: 交互被建模为马尔可夫决策过程，价值函数总结了预期的未来奖励，满足贝尔曼方程，这是几乎所有强化学习算法的基础。
时序差分学习: 智能体可以通过自举法学习价值估计，即根据后续预测加上观察到的奖励来更新预测，这使得智能体能够从不完整的 эпизод 和在线经验中学习。
深度强化学习: 使用深度神经网络来近似价值函数或策略，使得强化学习能够扩展到高维输入，这在学习玩Atari游戏和围棋的智能体中得到了体现。

强化学习解决了不确定性下的序列决策问题，并推动了游戏、机器人、推荐和控制领域的发展，以及通过从反馈中学习来对齐大型语言模型；其试错性质和奖励规范的难度使得安全和样本高效的学习成为当前关注的焦点。

强化学习统一了最优控制、动态规划和动物学习的思想。时序差分学习和Q学习在20世纪80年代和90年代初出现，Sutton和Barto的教科书奠定了该领域的基础。2010年代与深度学习的结合使得智能体在Atari游戏上达到人类水平，并在围棋上达到超人类水平。

样本效率和奖励设计: 强化学习可能需要大量的交互，并且对奖励的指定方式很敏感，这引发了关于如何使其更具数据效率以及如何避免智能体利用错误指定的奖励的争论。

强化学习与监督学习有何不同？: 监督学习被告知每个输入的正确输出。强化学习智能体只获得一个奖励信号来评估其行动的结果，必须通过试错发现良好行为，并且必须应对在获得奖励的行动之后很久才到达的奖励。
什么是探索-利用权衡？: 智能体必须在利用已知能带来良好奖励的行动和探索可能更好的未尝试行动之间做出选择。探索不足可能导致陷入次优策略，而探索过多则会浪费机会，因此平衡两者是强化学习的核心。