Tensorflow 培训损失图是否显示过度装配？深度Q学习_Tensorflow_Reinforcement Learning_Q Learning

Tensorflow 培训损失图是否显示过度装配？深度Q学习

tensorflow

Tensorflow 培训损失图是否显示过度装配？深度Q学习,tensorflow,reinforcement-learning,q-learning,Tensorflow,Reinforcement Learning,Q Learning,下图是针对历元的训练损失值。从图表上看，这是否意味着我已经做得太过合适了？如果不是，是什么导致了整个历元损失值的峰值？总体而言，可以观察到损失值呈下降趋势。我应该如何调整深度Q-learning中的设置这种混乱的损失轨迹通常意味着对于给定的损失函数平滑度，学习率太高另一种解释是，损失函数根本不能预测给定任务的成功。强化学习与正常监督学习有点不同，因为它通常显示出与问题类似的巨大差异。我不会说这是OP的问题，而是整个领域的问题

下图是针对历元的训练损失值。从图表上看，这是否意味着我已经做得太过合适了？如果不是，是什么导致了整个历元损失值的峰值？总体而言，可以观察到损失值呈下降趋势。我应该如何调整深度Q-learning中的设置

这种混乱的损失轨迹通常意味着对于给定的损失函数平滑度，学习率太高

另一种解释是，损失函数根本不能预测给定任务的成功。

强化学习与正常监督学习有点不同，因为它通常显示出与问题类似的巨大差异。我不会说这是OP的问题，而是整个领域的问题