Deep learning 深度神经网络与qlearning的结合

Deep learning 深度神经网络与qlearning的结合,deep-learning,reinforcement-learning,accord.net,q-learning,sarsa,Deep Learning,Reinforcement Learning,Accord.net,Q Learning,Sarsa,我使用Kinect摄像机的关节位置作为我的状态空间,但我认为它太大(每秒25个关节x 30个),无法直接输入SARSA或Qlearning 现在我正在使用Kinect手势生成器程序,该程序使用监督学习将用户移动与特定手势相关联。但这需要有人监督的训练,我不想这样做。我想,该算法可能会发现关节之间的某些关联,而当我自己对数据进行分类时(例如,举手、向左一步、向右一步) 我认为将这些数据输入一个深度神经网络,然后将其传递给强化学习算法,可能会给我一个更好的结果 最近有一篇关于这方面的论文 我知道Ac

我使用Kinect摄像机的关节位置作为我的状态空间,但我认为它太大(每秒25个关节x 30个),无法直接输入SARSA或Qlearning

现在我正在使用Kinect手势生成器程序,该程序使用监督学习将用户移动与特定手势相关联。但这需要有人监督的训练,我不想这样做。我想,该算法可能会发现关节之间的某些关联,而当我自己对数据进行分类时(例如,举手、向左一步、向右一步)

我认为将这些数据输入一个深度神经网络,然后将其传递给强化学习算法,可能会给我一个更好的结果

最近有一篇关于这方面的论文


我知道Accord.net有深层神经网络和RL,但有人把它们结合在一起了吗?有什么见解吗

如果我从您的问题和评论中理解正确,那么您希望有一个代理使用视觉输入(相机的原始像素)执行离散操作。这看起来和DeepMind的人最近做的一模一样,扩展了你提到的论文。看一看。这是新的(和更好的)版本的玩雅达利游戏。它们还提供了一个官方实现,您可以下载。 甚至还有一种非常有效的方法

最后,如果您想使用连续操作,您可能对此感兴趣


总而言之:是的,有人结合了DNN+RL,这很有效。如果你想用原始的摄像机数据来训练一名使用RL的特工,这绝对是一种方法:)

你的目标是什么?你的行动和奖励是什么?这是给拳击机器人的。用户站在它前面与它战斗。如果机器人打了用户,这是一个积极的奖励,如果用户打了机器人,这是一个消极的奖励。动作是我定义的一系列拳(动作1可能是左直拳、右直拳、左钩拳)。我熟悉这篇文章,这也是我使用Deep QLearning的灵感之一。与论文不同,我不打算使用原始像素。我将使用Kinect中25个关节的坐标。Kinect SDK在使用深度传感器识别关节方面做得很好,因此无需重新创建该功能。在你链接到的上一篇文章中(谢谢!)它说“然而,虽然DQN解决了高维观察空间的问题,但它只能处理离散和低维的动作空间。”我有一个相对较低的动作空间(可能高20),所以我认为标准的DQN可以工作。有没有人在Accord.net上发布过关于如何做到这一点的建议或代码?我不想从头开始写这些东西。是的,DQN只能处理离散的动作空间,而20仍然是低维的,所以你会没事的。但是我没有任何关于Accord.net的经验,所以我不能不考虑这一点。无论如何,实现它应该是非常简单的,它最终并不是什么复杂的事情。