Artificial intelligence 为什么我的奖励趋同,但仍然有很多变化

Artificial intelligence 为什么我的奖励趋同,但仍然有很多变化,artificial-intelligence,reinforcement-learning,convergence,reward,Artificial Intelligence,Reinforcement Learning,Convergence,Reward,我正在训练一个强化学习代理完成一个固定情节长度的情景任务。我通过绘制一集的累积奖励来跟踪培训过程。我正在使用张力板绘制奖励。我已经为我的经纪人训练了20米的台阶。所以我相信经纪人已经有足够的时间训练了。一集的累积奖励范围从+132到-60左右。 我的绘图平滑度为0.999 在这几集中,我可以看到我的回报已经趋同。但是如果我看到平滑度为0的图 奖励有很大的差异。那么,我应该考虑代理是否收敛了?我也不明白,为什么即使经过这么多的训练,奖励也会有如此巨大的差异 谢谢。代理试图解决的任务是什么?这是

我正在训练一个强化学习代理完成一个固定情节长度的情景任务。我通过绘制一集的累积奖励来跟踪培训过程。我正在使用张力板绘制奖励。我已经为我的经纪人训练了20米的台阶。所以我相信经纪人已经有足够的时间训练了。一集的累积奖励范围从+132到-60左右。 我的绘图平滑度为0.999

在这几集中,我可以看到我的回报已经趋同。但是如果我看到平滑度为0的图

奖励有很大的差异。那么,我应该考虑代理是否收敛了?我也不明白,为什么即使经过这么多的训练,奖励也会有如此巨大的差异


谢谢。

代理试图解决的任务是什么?这是一个控制问题,有9小时的间歇任务。代理试图通过每15分钟采取一次行动来保持房间的温度。如果采取的行动将温度保持在要求的范围内,代理将获得积极的奖励,如果采取的行动使温度超出范围,代理会根据温度的高低获得负回报。代理试图解决的任务是什么?这是一个控制问题,具有9小时的偶发性任务。Agent试图通过每15分钟采取一次行动来维持房间的温度。如果采取的行动将温度保持在要求的范围内,Agent将获得正奖励;如果采取的行动使温度超出范围,Agent将根据温度的恶劣程度获得负奖励