Machine learning 强化学习代理在连续动作空间中输出单个值

Machine learning 强化学习代理在连续动作空间中输出单个值,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我试图让PPO代理掌握一个简单的环境,包括一个必须在一个可以施加扭矩的杆上平衡球的环境。该代理只有一个连续动作,即:应用于杆的一端的力(范围从-1到1)。我观察到两种故障模式: 首先,有时,尽管我做出了努力,特工们还是会出现分歧。比率值穿过屋顶,在分析时,网络中的所有权重均为NaN 其次,更令人恼火的是,可以在图像的最后一列第一行观察到的情况,其中描述了动作值。基本上,代理在整个事件中只输出这个值。我不明白为什么 我试图通过在层之间使用tanh来防止它,但没有成功。有人能帮忙吗?关于代理为什

我试图让PPO代理掌握一个简单的环境,包括一个必须在一个可以施加扭矩的杆上平衡球的环境。该代理只有一个连续动作,即:应用于杆的一端的力(范围从-1到1)。我观察到两种故障模式:

  • 首先,有时,尽管我做出了努力,特工们还是会出现分歧。比率值穿过屋顶,在分析时,网络中的所有权重均为NaN

  • 其次,更令人恼火的是,可以在图像的最后一列第一行观察到的情况,其中描述了动作值。基本上,代理在整个事件中只输出这个值。我不明白为什么

我试图通过在层之间使用tanh来防止它,但没有成功。有人能帮忙吗?关于代理为什么会完全专注于单一价值的任何提示


非常感谢

你能分享你正在使用的代码吗?没有这一点,很难看出哪里出了问题。如果非要我猜的话,我会说你没有正确地宣传奖励或者没有正确地解释最终状态。这里有一个到自包含代码的链接!谢谢