Tensorflow 理解RLLIB中PPO的张力板图

Tensorflow 理解RLLIB中PPO的张力板图,tensorflow,reinforcement-learning,rllib,Tensorflow,Reinforcement Learning,Rllib,我是深度RL的初学者,希望用PPO算法在RLLIB中训练我自己的健身房环境。但是,我很难确定我的超参数设置是否成功。除了明显的“奖赏”指标应该上升外,我们还有许多其他的情节 我特别感兴趣的是熵在成功的训练中应该如何演变。在我的例子中,它看起来是这样的: 它通常降到0以下,然后收敛。我知道熵作为损失函数的一部分是加强探索,因此可以加速学习。但为什么会变得消极呢?它不应该总是大于或等于0吗 成功培训的其他特征是什么(vf\u解释的vf\u var、vf\u损耗、kl等)?如果你的行动空间是连续的,

我是深度RL的初学者,希望用PPO算法在RLLIB中训练我自己的健身房环境。但是,我很难确定我的超参数设置是否成功。除了明显的“奖赏”指标应该上升外,我们还有许多其他的情节

我特别感兴趣的是熵在成功的训练中应该如何演变。在我的例子中,它看起来是这样的:

它通常降到0以下,然后收敛。我知道熵作为损失函数的一部分是加强探索,因此可以加速学习。但为什么会变得消极呢?它不应该总是大于或等于0吗


成功培训的其他特征是什么(vf\u解释的vf\u var、vf\u损耗、kl等)?

如果你的行动空间是连续的,熵可以是负的,因为微分熵可以是负的

理想情况下,您希望熵在培训过程中缓慢而平稳地减小,因为代理将探索交易给开发

关于vf_*metrics,了解它们的含义很有帮助

在政策梯度法中,通过使用一个值函数(由神经网络参数化)来估计未来更远的奖励,有助于减少卷展估计的方差(查看第5页的数学)

vf\u explained\u var是通过使用价值函数解释的未来奖励变化。如果可能的话,你希望这个数值更高,最高为1;但是,如果您的环境中存在随机性,则不太可能实际达到1vf_损失是您的值函数正在发生的错误;理想情况下,这将减少到0,尽管这并不总是可能的(由于随机性)kl是您的旧策略和新策略在每个时间步之间的差异:您希望它在您训练以指示收敛时平稳减小