Python 理解和评估强化学习中的不同方法_Python_Reinforcement Learning_Openai Gym_Dqn

Python 理解和评估强化学习中的不同方法

python

Python 理解和评估强化学习中的不同方法,python,reinforcement-learning,openai-gym,dqn,Python,Reinforcement Learning,Openai Gym,Dqn,我一直在尝试使用不同的变体在Python上实现强化学习算法，如Q-learning，Deep Q-Network，Double-DQN和Dueling-Double-DQN。考虑一个CART极点例子，为了评估每个变体的性能，我可以想到将代码和奖励>和代码>到事件的数量< /代码>（附图中的图片）和实际图形输出，其中磁极在运载器移动时是稳定的。但这两项评估在定量解释更好的变体方面并不真正有意义。我不熟悉强化学习，并试图了解是否有其他方法可以在同一问题上比较RL模型的不同变体我指的是所有cart

我一直在尝试使用不同的变体在Python上实现强化学习算法，如

Q-learning

，

Deep Q-Network

，

Double-DQN

和

Dueling-Double-DQN

。考虑一个CART极点例子，为了评估每个变体的性能，我可以想到将代码<代码>和奖励>和代码>到<代码>事件的数量< /代码>（附图中的图片）和实际图形输出，其中磁极在运载器移动时是稳定的。但这两项评估在定量解释更好的变体方面并不真正有意义。我不熟悉强化学习，并试图了解是否有其他方法可以在同一问题上比较RL模型的不同变体

我指的是所有cart-pole示例变体的colab链接。

你可以在关于这些算法的研究论文中找到答案，因为当提出一个新算法时，我们通常需要实验来证明它明显优于其他算法

在关于RL算法的研究论文中，最常用的评估方法是平均回报（注意，回报不是奖励，回报是累积的奖励，就像游戏中的分数），在时间步长上，有很多方法可以平均回报，例如，平均wrt不同超参数，如in的比较评估平均wrt不同随机种子（初始化模型）：

图1显示了评估滚动期间的总平均回报 DDPG、PPO和TD3的培训。我们训练了五个不同的例子每个算法使用不同的随机种子，每个执行一个 “评估”卷展栏每1000个环境步骤一次。实心曲线对应于平均值，阴影区域对应于最小值和五次试验的最大回报率

我们通常希望不仅在一个任务上，而且在不同的任务集（即基准测试）上比较许多算法的性能，因为算法可能有某种形式的归纳偏差，使它们在某些形式的任务上更好，但在其他任务上更差，例如在与PPO的实验比较中：

我们在Procgen Benchmark中报告了环境的结果（Cobbe等人，2019年）。这一基准的设计目的是要达到高度的一致性多样性，我们期望在这个基准上的改进能够很好地传递对于许多其他RL环境

谢谢你，例如，先生。这是非常重要的helpful@mkpisk很乐意帮忙：）