Deep learning DQN的光滑学习曲线_Deep Learning_Reinforcement Learning

Deep learning DQN的光滑学习曲线

deep-learning

Deep learning DQN的光滑学习曲线,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我创建了一个DDQN代理，但在学习阶段有一些振荡。我想知道是否有可能消除我所附曲线的“反向尖峰”（=振荡）仅供参考：我使用3个ReLU隐藏层，每个层100个单元，作为优化器，我使用Adam，学习率为0.005，损失为MSE 谢谢，您需要描述图表，我假设时间在x，奖励在y。如果问题是，我如何才能使我的图表看起来更好？如果您还没有这样做，请计算奖励的平均值。否则，训练DDQN（或任何变体）本质上是不稳定的-因此所有稳定它的努力-目标网络，体验重播等。这种不稳定可能导致奖励中的这些“振荡”。我也很好

我创建了一个DDQN代理，但在学习阶段有一些振荡。我想知道是否有可能消除我所附曲线的“反向尖峰”（=振荡）

仅供参考：我使用3个ReLU隐藏层，每个层100个单元，作为优化器，我使用Adam，学习率为0.005，损失为MSE

谢谢，

您需要描述图表，我假设时间在x，奖励在y。如果问题是，我如何才能使我的图表看起来更好？如果您还没有这样做，请计算奖励的平均值。否则，训练DDQN（或任何变体）本质上是不稳定的-因此所有稳定它的努力-目标网络，体验重播等。这种不稳定可能导致奖励中的这些“振荡”。我也很好奇为什么你想把它们拿走，你真的应该去理解它们！另外，如果您的型号是DDQN，那么您的损失不是MSE，这不是您的网络架构，请查看此内容。供参考：非常感谢您的评论。是的，对不起，我忘了描述我的曲线：y=最后100集的平均报酬，x=集。是的，这是一个DDQN，只有完全连接的神经网络，因为我的问题涉及数字。我试图通过改变许多超参数来理解这些尖峰，但没有结果。。。。我将尝试使用另一个优化器。。。我和你保持联系。