Python 理解和评估强化学习中的不同方法

Python 理解和评估强化学习中的不同方法,python,reinforcement-learning,openai-gym,dqn,Python,Reinforcement Learning,Openai Gym,Dqn,我一直在尝试使用不同的变体在Python上实现强化学习算法,如Q-learning,Deep Q-Network,Double-DQN和Dueling-Double-DQN。考虑一个CART极点例子,为了评估每个变体的性能,我可以想到将代码和奖励>和代码>到事件的数量< /代码>(附图中的图片)和实际图形输出,其中磁极在运载器移动时是稳定的。 但这两项评估在定量解释更好的变体方面并不真正有意义。我不熟悉强化学习,并试图了解是否有其他方法可以在同一问题上比较RL模型的不同变体 我指的是所有cart

我一直在尝试使用不同的变体在Python上实现强化学习算法,如
Q-learning
Deep Q-Network
Double-DQN
Dueling-Double-DQN
。考虑一个CART极点例子,为了评估每个变体的性能,我可以想到将代码<代码>和奖励>和代码>到<代码>事件的数量< /代码>(附图中的图片)和实际图形输出,其中磁极在运载器移动时是稳定的。 但这两项评估在定量解释更好的变体方面并不真正有意义。我不熟悉强化学习,并试图了解是否有其他方法可以在同一问题上比较RL模型的不同变体


我指的是所有cart-pole示例变体的colab链接。

你可以在关于这些算法的研究论文中找到答案,因为当提出一个新算法时,我们通常需要实验来证明它明显优于其他算法

在关于RL算法的研究论文中,最常用的评估方法是平均回报(注意,回报不是奖励,回报是累积的奖励,就像游戏中的分数),在时间步长上,有很多方法可以平均回报,例如,平均wrt不同超参数,如in的比较评估平均wrt不同随机种子(初始化模型):

图1显示了评估滚动期间的总平均回报 DDPG、PPO和TD3的培训。我们训练了五个不同的例子 每个算法使用不同的随机种子,每个执行一个 “评估”卷展栏每1000个环境步骤一次。实心曲线 对应于平均值,阴影区域对应于最小值和 五次试验的最大回报率

我们通常希望不仅在一个任务上,而且在不同的任务集(即基准测试)上比较许多算法的性能,因为算法可能有某种形式的归纳偏差,使它们在某些形式的任务上更好,但在其他任务上更差,例如在与PPO的实验比较中:

我们在Procgen Benchmark中报告了环境的结果 (Cobbe等人,2019年)。这一基准的设计目的是要达到高度的一致性 多样性,我们期望在这个基准上的改进能够很好地传递 对于许多其他RL环境


谢谢你,例如,先生。这是非常重要的helpful@mkpisk很乐意帮忙:)