Deep learning 深度Q-学习代理的性能在一定时间后会下降

Deep learning 深度Q-学习代理的性能在一定时间后会下降,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我有一个DQN代理,它在特定的网络上接受培训以执行任务。然而,在培训代理时,我注意到,在代理显示任务分数总体增长的初始阶段数之后,代理的性能突然出现急剧下降,好像它是重新开始的。这种情况经常发生 我的代理显示从坏到好的性能波动等等。这对于DQN代理来说是正常的吗。我应该执行什么诊断来消除这种波动?我已经为代理使用了经验回放和探索开发。我对这个领域比较陌生,所以这个问题可能很简单。在达到最佳水平之前,这些波动是正常的。在大多数加固试验和论文中,结果均采用加权平均法显示,窗口大小为15-30。下面是

我有一个DQN代理,它在特定的网络上接受培训以执行任务。然而,在培训代理时,我注意到,在代理显示任务分数总体增长的初始阶段数之后,代理的性能突然出现急剧下降,好像它是重新开始的。这种情况经常发生


我的代理显示从坏到好的性能波动等等。这对于DQN代理来说是正常的吗。我应该执行什么诊断来消除这种波动?我已经为代理使用了经验回放和探索开发。我对这个领域比较陌生,所以这个问题可能很简单。

在达到最佳水平之前,这些波动是正常的。在大多数加固试验和论文中,结果均采用加权平均法显示,
窗口大小为15-30
。下面是我的
dqn
实现图


在达到最佳水平之前,这些波动是正常的。在大多数加固试验和论文中,结果均采用加权平均法显示,
窗口大小为15-30
。下面是我的
dqn
实现图