Tensorflow 理解RLLIB中PPO的张力板图_Tensorflow_Reinforcement Learning_Rllib

Tensorflow 理解RLLIB中PPO的张力板图

tensorflow

Tensorflow 理解RLLIB中PPO的张力板图,tensorflow,reinforcement-learning,rllib,Tensorflow,Reinforcement Learning,Rllib,我是深度RL的初学者，希望用PPO算法在RLLIB中训练我自己的健身房环境。但是，我很难确定我的超参数设置是否成功。除了明显的“奖赏”指标应该上升外，我们还有许多其他的情节我特别感兴趣的是熵在成功的训练中应该如何演变。在我的例子中，它看起来是这样的：它通常降到0以下，然后收敛。我知道熵作为损失函数的一部分是加强探索，因此可以加速学习。但为什么会变得消极呢？它不应该总是大于或等于0吗成功培训的其他特征是什么（vf\u解释的vf\u var、vf\u损耗、kl等）？如果你的行动空间是连续的，

我是深度RL的初学者，希望用PPO算法在RLLIB中训练我自己的健身房环境。但是，我很难确定我的超参数设置是否成功。除了明显的“奖赏”指标应该上升外，我们还有许多其他的情节

我特别感兴趣的是熵在成功的训练中应该如何演变。在我的例子中，它看起来是这样的：

它通常降到0以下，然后收敛。我知道熵作为损失函数的一部分是加强探索，因此可以加速学习。但为什么会变得消极呢？它不应该总是大于或等于0吗

成功培训的其他特征是什么（vf\u解释的vf\u var、vf\u损耗、kl等）？

如果你的行动空间是连续的，熵可以是负的，因为微分熵可以是负的

理想情况下，您希望熵在培训过程中缓慢而平稳地减小，因为代理将探索交易给开发

关于vf_*metrics，了解它们的含义很有帮助

在政策梯度法中，通过使用一个值函数（由神经网络参数化）来估计未来更远的奖励，有助于减少卷展估计的方差（查看第5页的数学）

vf\u explained\u var是通过使用价值函数解释的未来奖励变化。如果可能的话，你希望这个数值更高，最高为1；但是，如果您的环境中存在随机性，则不太可能实际达到1vf_损失是您的值函数正在发生的错误；理想情况下，这将减少到0，尽管这并不总是可能的（由于随机性）kl是您的旧策略和新策略在每个时间步之间的差异：您希望它在您训练以指示收敛时平稳减小