Artificial intelligence 为什么我的奖励趋同，但仍然有很多变化_Artificial Intelligence_Reinforcement Learning_Convergence_Reward

Artificial intelligence 为什么我的奖励趋同，但仍然有很多变化

artificial-intelligence

Artificial intelligence 为什么我的奖励趋同，但仍然有很多变化,artificial-intelligence,reinforcement-learning,convergence,reward,Artificial Intelligence,Reinforcement Learning,Convergence,Reward,我正在训练一个强化学习代理完成一个固定情节长度的情景任务。我通过绘制一集的累积奖励来跟踪培训过程。我正在使用张力板绘制奖励。我已经为我的经纪人训练了20米的台阶。所以我相信经纪人已经有足够的时间训练了。一集的累积奖励范围从+132到-60左右。我的绘图平滑度为0.999 在这几集中，我可以看到我的回报已经趋同。但是如果我看到平滑度为0的图奖励有很大的差异。那么，我应该考虑代理是否收敛了？我也不明白，为什么即使经过这么多的训练，奖励也会有如此巨大的差异谢谢。代理试图解决的任务是什么？这是

我正在训练一个强化学习代理完成一个固定情节长度的情景任务。我通过绘制一集的累积奖励来跟踪培训过程。我正在使用张力板绘制奖励。我已经为我的经纪人训练了20米的台阶。所以我相信经纪人已经有足够的时间训练了。一集的累积奖励范围从+132到-60左右。我的绘图平滑度为0.999

在这几集中，我可以看到我的回报已经趋同。但是如果我看到平滑度为0的图

奖励有很大的差异。那么，我应该考虑代理是否收敛了？我也不明白，为什么即使经过这么多的训练，奖励也会有如此巨大的差异

谢谢。

代理试图解决的任务是什么？这是一个控制问题，有9小时的间歇任务。代理试图通过每15分钟采取一次行动来保持房间的温度。如果采取的行动将温度保持在要求的范围内，代理将获得积极的奖励，如果采取的行动使温度超出范围，代理会根据温度的高低获得负回报。代理试图解决的任务是什么？这是一个控制问题，具有9小时的偶发性任务。Agent试图通过每15分钟采取一次行动来维持房间的温度。如果采取的行动将温度保持在要求的范围内，Agent将获得正奖励；如果采取的行动使温度超出范围，Agent将根据温度的恶劣程度获得负奖励