Deep learning DQN的光滑学习曲线

Deep learning DQN的光滑学习曲线,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我创建了一个DDQN代理,但在学习阶段有一些振荡。我想知道是否有可能消除我所附曲线的“反向尖峰”(=振荡) 仅供参考:我使用3个ReLU隐藏层,每个层100个单元,作为优化器,我使用Adam,学习率为0.005,损失为MSE 谢谢,您需要描述图表,我假设时间在x,奖励在y。如果问题是,我如何才能使我的图表看起来更好?如果您还没有这样做,请计算奖励的平均值。否则,训练DDQN(或任何变体)本质上是不稳定的-因此所有稳定它的努力-目标网络,体验重播等。这种不稳定可能导致奖励中的这些“振荡”。我也很好

我创建了一个DDQN代理,但在学习阶段有一些振荡。我想知道是否有可能消除我所附曲线的“反向尖峰”(=振荡)

仅供参考:我使用3个ReLU隐藏层,每个层100个单元,作为优化器,我使用Adam,学习率为0.005,损失为MSE


谢谢,

您需要描述图表,我假设时间在x,奖励在y。如果问题是,我如何才能使我的图表看起来更好?如果您还没有这样做,请计算奖励的平均值。否则,训练DDQN(或任何变体)本质上是不稳定的-因此所有稳定它的努力-目标网络,体验重播等。这种不稳定可能导致奖励中的这些“振荡”。我也很好奇为什么你想把它们拿走,你真的应该去理解它们!另外,如果您的型号是DDQN,那么您的损失不是MSE,这不是您的网络架构,请查看此内容。供参考:非常感谢您的评论。是的,对不起,我忘了描述我的曲线:y=最后100集的平均报酬,x=集。是的,这是一个DDQN,只有完全连接的神经网络,因为我的问题涉及数字。我试图通过改变许多超参数来理解这些尖峰,但没有结果。。。。我将尝试使用另一个优化器。。。我和你保持联系。