Artificial intelligence 您如何评估经过培训的强化学习代理,无论其是否经过培训?

Artificial intelligence 您如何评估经过培训的强化学习代理,无论其是否经过培训?,artificial-intelligence,reinforcement-learning,montecarlo,policy-gradient-descent,Artificial Intelligence,Reinforcement Learning,Montecarlo,Policy Gradient Descent,我是强化学习代理培训的新手。我已经阅读了PPO算法,并使用稳定的基线库来培训使用PPO的代理。所以我的问题是如何评估一个训练有素的RL特工。考虑到回归或分类问题,我有度量,如R2a分数或精度等。是否存在任何此类参数,或者我如何测试代理,得出代理是否受过良好培训的结论 谢谢您可以使用随机策略运行您的环境,然后使用经过培训的PPO模型使用相同的随机种子运行相同的环境。通过对累积奖励的比较,您可以初步了解经过培训的模型的性能 由于您使用PPO,您可能希望检查渐变的轨迹和KL散度值,以查看是否已定义好接

我是强化学习代理培训的新手。我已经阅读了PPO算法,并使用稳定的基线库来培训使用PPO的代理。所以我的问题是如何评估一个训练有素的RL特工。考虑到回归或分类问题,我有度量,如R2a分数或精度等。是否存在任何此类参数,或者我如何测试代理,得出代理是否受过良好培训的结论


谢谢

您可以使用随机策略运行您的环境,然后使用经过培训的PPO模型使用相同的随机种子运行相同的环境。通过对累积奖励的比较,您可以初步了解经过培训的模型的性能


由于您使用PPO,您可能希望检查渐变的轨迹和KL散度值,以查看是否已定义好接受渐变步长的阈值。如果很少有可接受的渐变步长,则可能需要修改参数

评估RL代理的一个好方法是在环境中运行N次,然后计算N次运行的平均回报

在整个培训过程中执行上述评估步骤是很常见的,并在培训过程中绘制平均回报图。你会期望平均回报率上升,这表明培训正在做一些有用的事情

例如,在的图3中,作者用训练步骤绘制了平均回报图,以表明PPO比其他算法表现得更好