深度Q网络展示了什么？

它表明，一个单一的神经网络智能体可以直接从屏幕像素和分数中学习玩几十种不同的Atari游戏，在其中许多游戏上达到了人类水平的表现，而无需针对特定游戏进行调整，并使用经验回放和目标网络来提高稳定性。

为什么深度强化学习通常不稳定？

结合自举的价值估计、离策略数据和神经网络逼近可能会放大误差并导致训练发散。经验回放、目标网络和仔细选择学习率等技术被用于保持学习的稳定。

深度强化学习利用神经网络来近似价值函数或策略，将强化学习扩展到图像和复杂游戏等高维输入。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

深度强化学习是一种强化学习，其中深度神经网络作为价值函数、策略或模型的函数逼近器，使智能体能够直接从高维原始观测中学习，而不是从人工设计的状态特征中学习。

本主题涵盖了强化学习与深度神经网络的结合：包括使用经验回放和目标网络以提高稳定性的深度Q网络、深度演员-评论家（actor-critic）方法和策略优化方法，以及学习与搜索的结合（如在游戏系统中）。它解决了使用函数逼近训练价值函数时的稳定性挑战以及由此产生的里程碑式成就。

深度Q网络: 通过深度网络近似动作价值，并通过经验回放和缓慢更新的目标网络进行稳定，使得单一架构能够从像素中学习许多Atari游戏达到人类水平。
学习与搜索相结合: 将深度策略网络和价值网络与蒙特卡洛树搜索相结合，并通过自我对弈进行训练，产生了掌握围棋的系统，超越了最强的人类玩家。
函数逼近的稳定性: 将自举（bootstrapping）、离策略学习（off-policy learning）和函数逼近结合可能导致训练发散，因此深度强化学习依赖于精细的技术来保持价值估计的稳定。

深度强化学习产生了一些最引人注目的人工智能演示，包括超人级的游戏表现以及机器人和控制方面的进展，其技术为大型模型的奖励驱动微调提供了信息；其高样本成本和训练不稳定性仍然是重要的实际限制。

2015年的深度Q网络表明，带有深度函数逼近的强化学习可以直接从像素中学习；2016年的围棋系统将深度网络与搜索和自我对弈相结合，击败了顶尖人类玩家。这些成果建立在Sutton和Barto编码的强化学习基础之上，将深度强化学习确立为一个主要研究方向。

深度Q网络展示了什么？: 它表明，一个单一的神经网络智能体可以直接从屏幕像素和分数中学习玩几十种不同的Atari游戏，在其中许多游戏上达到了人类水平的表现，而无需针对特定游戏进行调整，并使用经验回放和目标网络来提高稳定性。
为什么深度强化学习通常不稳定？: 结合自举的价值估计、离策略数据和神经网络逼近可能会放大误差并导致训练发散。经验回放、目标网络和仔细选择学习率等技术被用于保持学习的稳定。