Python DQN在CartPole问题上的表现-需要解决多少集?
嗨,AI爱好者们 我自己和我见过的大多数其他CartPole经纪人都需要超过1000集(如果不是数千集,取决于RNG),以便开始学习并最终达成“解决方案”(在Python DQN在CartPole问题上的表现-需要解决多少集?,python,openai-gym,Python,Openai Gym,嗨,AI爱好者们 我自己和我见过的大多数其他CartPole经纪人都需要超过1000集(如果不是数千集,取决于RNG),以便开始学习并最终达成“解决方案”(在100连续比赛中,这被认为是200的分数)。 虽然我很高兴我的经纪人最终能够学习并解决CartPole问题,但每集的平均播放时间高达10秒(在环境中穿行,直到该集完成),以及3到5秒的训练,批大小为64。因此,对于这样一个简单的问题,总训练时间为数小时 现在我发现了这个OpenAI排行榜实现,它能够在一秒钟内解决这个问题。一集就足以让该经纪
100
连续比赛中,这被认为是200的分数)。
虽然我很高兴我的经纪人最终能够学习并解决CartPole问题,但每集的平均播放时间高达10秒(在环境中穿行,直到该集完成),以及3到5秒的训练,批大小为64。因此,对于这样一个简单的问题,总训练时间为数小时
现在我发现了这个OpenAI排行榜实现,它能够在一秒钟内解决这个问题。一集就足以让该经纪人了解所有需要了解的内容,并在之后成功地播放:
很明显,该代理没有使用Torch或Keras,而是使用NumPy数组和仅具有8个不同权重的MalMul操作来实现自己的逻辑
这怎么可能从一个片段中学习呢?这也可以在Keras中实施吗