Deep learning 深度神经网络与qlearning的结合_Deep Learning_Reinforcement Learning_Accord.net_Q Learning_Sarsa

Deep learning 深度神经网络与qlearning的结合

deep-learning

Deep learning 深度神经网络与qlearning的结合,deep-learning,reinforcement-learning,accord.net,q-learning,sarsa,Deep Learning,Reinforcement Learning,Accord.net,Q Learning,Sarsa,我使用Kinect摄像机的关节位置作为我的状态空间，但我认为它太大（每秒25个关节x 30个），无法直接输入SARSA或Qlearning 现在我正在使用Kinect手势生成器程序，该程序使用监督学习将用户移动与特定手势相关联。但这需要有人监督的训练，我不想这样做。我想，该算法可能会发现关节之间的某些关联，而当我自己对数据进行分类时（例如，举手、向左一步、向右一步）我认为将这些数据输入一个深度神经网络，然后将其传递给强化学习算法，可能会给我一个更好的结果最近有一篇关于这方面的论文我知道Ac

我使用Kinect摄像机的关节位置作为我的状态空间，但我认为它太大（每秒25个关节x 30个），无法直接输入SARSA或Qlearning

现在我正在使用Kinect手势生成器程序，该程序使用监督学习将用户移动与特定手势相关联。但这需要有人监督的训练，我不想这样做。我想，该算法可能会发现关节之间的某些关联，而当我自己对数据进行分类时（例如，举手、向左一步、向右一步）

我认为将这些数据输入一个深度神经网络，然后将其传递给强化学习算法，可能会给我一个更好的结果

最近有一篇关于这方面的论文

我知道Accord.net有深层神经网络和RL，但有人把它们结合在一起了吗？有什么见解吗

如果我从您的问题和评论中理解正确，那么您希望有一个代理使用视觉输入（相机的原始像素）执行离散操作。这看起来和DeepMind的人最近做的一模一样，扩展了你提到的论文。看一看。这是新的（和更好的）版本的玩雅达利游戏。它们还提供了一个官方实现，您可以下载。甚至还有一种非常有效的方法

最后，如果您想使用连续操作，您可能对此感兴趣

总而言之：是的，有人结合了DNN+RL，这很有效。如果你想用原始的摄像机数据来训练一名使用RL的特工，这绝对是一种方法：）

你的目标是什么？你的行动和奖励是什么？这是给拳击机器人的。用户站在它前面与它战斗。如果机器人打了用户，这是一个积极的奖励，如果用户打了机器人，这是一个消极的奖励。动作是我定义的一系列拳（动作1可能是左直拳、右直拳、左钩拳）。我熟悉这篇文章，这也是我使用Deep QLearning的灵感之一。与论文不同，我不打算使用原始像素。我将使用Kinect中25个关节的坐标。Kinect SDK在使用深度传感器识别关节方面做得很好，因此无需重新创建该功能。在你链接到的上一篇文章中（谢谢！）它说“然而，虽然DQN解决了高维观察空间的问题，但它只能处理离散和低维的动作空间。”我有一个相对较低的动作空间（可能高20），所以我认为标准的DQN可以工作。有没有人在Accord.net上发布过关于如何做到这一点的建议或代码？我不想从头开始写这些东西。是的，DQN只能处理离散的动作空间，而20仍然是低维的，所以你会没事的。但是我没有任何关于Accord.net的经验，所以我不能不考虑这一点。无论如何，实现它应该是非常简单的，它最终并不是什么复杂的事情。