Neural network 深度Q学习是否适合解决Cartpole任务？_Neural Network_Reinforcement Learning_Q Learning_Openai Gym

Neural network 深度Q学习是否适合解决Cartpole任务？

neural-network

Neural network 深度Q学习是否适合解决Cartpole任务？,neural-network,reinforcement-learning,q-learning,openai-gym,Neural Network,Reinforcement Learning,Q Learning,Openai Gym,我不熟悉强化学习。最近，我一直在尝试训练一个深度Q网络来解决OpenAI gym的CartPole-v0，解决意味着在连续100集中平均得分至少达到195.0 我使用的是一个两层神经网络，包含一百万次经验的记忆，epsilon贪婪策略，RMSProp优化器和Huber损失函数使用此设置，解决此任务需要数千集（>30k）。学习有时也很不稳定。那么，深度Q网络振荡并花这么长时间学习这样的任务是正常的吗？还有什么其他选择（或对DQN的改进）可以提供更好的结果还有什么其他选择（或对DQN的改进）可以

我不熟悉强化学习。最近，我一直在尝试训练一个深度Q网络来解决OpenAI gym的CartPole-v0，解决意味着在连续100集中平均得分至少达到195.0

我使用的是一个两层神经网络，包含一百万次经验的记忆，epsilon贪婪策略，RMSProp优化器和Huber损失函数

使用此设置，解决此任务需要数千集（>30k）。学习有时也很不稳定。那么，深度Q网络振荡并花这么长时间学习这样的任务是正常的吗？还有什么其他选择（或对DQN的改进）可以提供更好的结果

还有什么其他选择（或对DQN的改进）可以提供更好的结果

根据我的经验，政策梯度对cartpole很有效。而且，它们很容易实现（如果你眯着眼睛看，策略梯度看起来几乎像监督学习）

一个很好的起点：

在这里，您可以找到一个可能对您的目的有所帮助的教程。本教程使用了OpenAI CartPole问题，他们使用了像你一样的神经网络：谢谢，@PabloEM。这给了我一些新的见解。太好了。总的来说，我想深度Q学习对于解决Cartpole任务来说有些过火了。30k集有多少个训练步骤？DQN通常需要很长时间才能收敛。你已经在使用一个目标网络了吗？每集的训练步骤各不相同，所以很难说在3万集中有多少个训练步骤。是的，我使用的是目标网络。