Machine learning 强化学习代理在连续动作空间中输出单个值_Machine Learning_Reinforcement Learning

Machine learning 强化学习代理在连续动作空间中输出单个值

machine-learning

Machine learning 强化学习代理在连续动作空间中输出单个值,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我试图让PPO代理掌握一个简单的环境，包括一个必须在一个可以施加扭矩的杆上平衡球的环境。该代理只有一个连续动作，即：应用于杆的一端的力（范围从-1到1）。我观察到两种故障模式：首先，有时，尽管我做出了努力，特工们还是会出现分歧。比率值穿过屋顶，在分析时，网络中的所有权重均为NaN 其次，更令人恼火的是，可以在图像的最后一列第一行观察到的情况，其中描述了动作值。基本上，代理在整个事件中只输出这个值。我不明白为什么我试图通过在层之间使用tanh来防止它，但没有成功。有人能帮忙吗？关于代理为什

我试图让PPO代理掌握一个简单的环境，包括一个必须在一个可以施加扭矩的杆上平衡球的环境。该代理只有一个连续动作，即：应用于杆的一端的力（范围从-1到1）。我观察到两种故障模式：

首先，有时，尽管我做出了努力，特工们还是会出现分歧。比率值穿过屋顶，在分析时，网络中的所有权重均为NaN
其次，更令人恼火的是，可以在图像的最后一列第一行观察到的情况，其中描述了动作值。基本上，代理在整个事件中只输出这个值。我不明白为什么

我试图通过在层之间使用tanh来防止它，但没有成功。有人能帮忙吗？关于代理为什么会完全专注于单一价值的任何提示

非常感谢

你能分享你正在使用的代码吗？没有这一点，很难看出哪里出了问题。如果非要我猜的话，我会说你没有正确地宣传奖励或者没有正确地解释最终状态。这里有一个到自包含代码的链接！谢谢