Tensorflow 培训损失图是否显示过度装配?深度Q学习

Tensorflow 培训损失图是否显示过度装配?深度Q学习,tensorflow,reinforcement-learning,q-learning,Tensorflow,Reinforcement Learning,Q Learning,下图是针对历元的训练损失值。从图表上看,这是否意味着我已经做得太过合适了?如果不是,是什么导致了整个历元损失值的峰值?总体而言,可以观察到损失值呈下降趋势。我应该如何调整深度Q-learning中的设置 这种混乱的损失轨迹通常意味着对于给定的损失函数平滑度,学习率太高 另一种解释是,损失函数根本不能预测给定任务的成功。强化学习与正常监督学习有点不同,因为它通常显示出与问题类似的巨大差异。我不会说这是OP的问题,而是整个领域的问题

下图是针对历元的训练损失值。从图表上看,这是否意味着我已经做得太过合适了?如果不是,是什么导致了整个历元损失值的峰值?总体而言,可以观察到损失值呈下降趋势。我应该如何调整深度Q-learning中的设置


这种混乱的损失轨迹通常意味着对于给定的损失函数平滑度,学习率太高


另一种解释是,损失函数根本不能预测给定任务的成功。

强化学习与正常监督学习有点不同,因为它通常显示出与问题类似的巨大差异。我不会说这是OP的问题,而是整个领域的问题