Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Neural network 深度Q学习是否适合解决Cartpole任务?_Neural Network_Reinforcement Learning_Q Learning_Openai Gym - Fatal编程技术网

Neural network 深度Q学习是否适合解决Cartpole任务?

Neural network 深度Q学习是否适合解决Cartpole任务?,neural-network,reinforcement-learning,q-learning,openai-gym,Neural Network,Reinforcement Learning,Q Learning,Openai Gym,我不熟悉强化学习。最近,我一直在尝试训练一个深度Q网络来解决OpenAI gym的CartPole-v0,解决意味着在连续100集中平均得分至少达到195.0 我使用的是一个两层神经网络,包含一百万次经验的记忆,epsilon贪婪策略,RMSProp优化器和Huber损失函数 使用此设置,解决此任务需要数千集(>30k)。学习有时也很不稳定。那么,深度Q网络振荡并花这么长时间学习这样的任务是正常的吗?还有什么其他选择(或对DQN的改进)可以提供更好的结果 还有什么其他选择(或对DQN的改进)可以

我不熟悉强化学习。最近,我一直在尝试训练一个深度Q网络来解决OpenAI gym的CartPole-v0,解决意味着在连续100集中平均得分至少达到195.0

我使用的是一个两层神经网络,包含一百万次经验的记忆,epsilon贪婪策略,RMSProp优化器和Huber损失函数

使用此设置,解决此任务需要数千集(>30k)。学习有时也很不稳定。那么,深度Q网络振荡并花这么长时间学习这样的任务是正常的吗?还有什么其他选择(或对DQN的改进)可以提供更好的结果

还有什么其他选择(或对DQN的改进)可以提供更好的结果

根据我的经验,政策梯度对cartpole很有效。而且,它们很容易实现(如果你眯着眼睛看,策略梯度看起来几乎像监督学习)


一个很好的起点:

在这里,您可以找到一个可能对您的目的有所帮助的教程。本教程使用了OpenAI CartPole问题,他们使用了像你一样的神经网络:谢谢,@PabloEM。这给了我一些新的见解。太好了。总的来说,我想深度Q学习对于解决Cartpole任务来说有些过火了。30k集有多少个训练步骤?DQN通常需要很长时间才能收敛。你已经在使用一个目标网络了吗?每集的训练步骤各不相同,所以很难说在3万集中有多少个训练步骤。是的,我使用的是目标网络。