Python DQN在CartPole问题上的表现-需要解决多少集？_Python_Openai Gym

Python DQN在CartPole问题上的表现-需要解决多少集？

python

Python DQN在CartPole问题上的表现-需要解决多少集？,python,openai-gym,Python,Openai Gym,嗨，AI爱好者们我自己和我见过的大多数其他CartPole经纪人都需要超过1000集（如果不是数千集，取决于RNG），以便开始学习并最终达成“解决方案”（在100连续比赛中，这被认为是200的分数）。虽然我很高兴我的经纪人最终能够学习并解决CartPole问题，但每集的平均播放时间高达10秒（在环境中穿行，直到该集完成），以及3到5秒的训练，批大小为64。因此，对于这样一个简单的问题，总训练时间为数小时现在我发现了这个OpenAI排行榜实现，它能够在一秒钟内解决这个问题。一集就足以让该经纪

嗨，AI爱好者们

我自己和我见过的大多数其他CartPole经纪人都需要超过1000集（如果不是数千集，取决于RNG），以便开始学习并最终达成“解决方案”（在

连续比赛中，这被认为是200的分数）。虽然我很高兴我的经纪人最终能够学习并解决CartPole问题，但每集的平均播放时间高达10秒（在环境中穿行，直到该集完成），以及3到5秒的训练，批大小为64。因此，对于这样一个简单的问题，总训练时间为数小时

现在我发现了这个OpenAI排行榜实现，它能够在一秒钟内解决这个问题。一集就足以让该经纪人了解所有需要了解的内容，并在之后成功地播放：

很明显，该代理没有使用Torch或Keras，而是使用NumPy数组和仅具有8个不同权重的MalMul操作来实现自己的逻辑

这怎么可能从一个片段中学习呢？这也可以在Keras中实施吗