Language agnostic 改进Q-学习_Language Agnostic_Artificial Intelligence_Genetic Algorithm_Reinforcement Learning

Language agnostic 改进Q-学习

language-agnostic artificial-intelligence

Language agnostic 改进Q-学习,language-agnostic,artificial-intelligence,genetic-algorithm,reinforcement-learning,Language Agnostic,Artificial Intelligence,Genetic Algorithm,Reinforcement Learning,我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始，并到达目标状态（例如，对于有门的瓷砖）。当前，当它想要移动到另一个磁贴时，它将移动到该磁贴，但我在想，将来我可能会添加一个随机的机会，而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100，其余操作将产生0 我使用的是找到的算法，可以在下面的图像中看到现在，关于这一点，我有一些问题：使用Q-Learning时，有点像神经网络，我必须学习阶段之间的区别和使

我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始，并到达目标状态（例如，对于有门的瓷砖）。当前，当它想要移动到另一个磁贴时，它将移动到该磁贴，但我在想，将来我可能会添加一个随机的机会，而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100，其余操作将产生0

我使用的是找到的算法，可以在下面的图像中看到

现在，关于这一点，我有一些问题：

使用Q-Learning时，有点像神经网络，我必须学习阶段之间的区别和使用阶段？我是说，看起来这就是他们在第一场比赛中所展示的图片是一个学习型的图片，在第二张图片是一张正在使用的图片

我在某个地方读到这需要一段时间要达到的步骤数不胜数最佳Q值表。是吗是吗？我想说那不是真的，但我这里一定少了什么

我也听说过TD（时态）差异），这似乎是代表如下：表达方式：

Q(a, s) = Q(a, s) * alpha * [R(a, s) + gamma * Max { Q(a', s' } - Q(a, s)]

对于alpha=1，似乎是图中首先显示的一个。什么这有什么区别吗，这里

我遇到了一些麻烦，如果我试了一间很大的房间（300x200）例如，像素）。因为它基本上是随机运行的，如果房间很大，那么需要一段时间有很多时间可以从从第一个状态到目标状态。什么我可以用什么方法来加速它？我我想也许有人坐满了无论是真是假，关于不管我在那集里有什么是否已经处于那种状态。如果是，我会放弃它，如果不是，我会放弃它去那里。如果我已经在所有这些州，我都会去随机的。这样的话就像我现在在做什么，知道吗我会少重复一次我现在是这样做的

我想试试别的，而不是别的我的Q值查找表，所以我在使用神经网络时思考带反向传播的网络这我可能会试着喝一杯每个动作的神经网络（up，下，左，右），就像它看起来什么能产生最好的结果。有任何其他方法（除SVM外似乎太难实施了我自己）我可以使用和那会给我带来好处的 Q值函数逼近

你认为遗传算法吗将在这方面产生良好的效果情况，使用Q值矩阵作为它的基础？我怎么能测试我的健身功能？它给我的印象是遗传算法通常用于更随机/复杂的事情。如果我们仔细观察，我们会注意到Q值有一个明显的趋势——在目标附近Q值越高，离目标越远Q值越低。要想通过遗传算法得出这个结论可能需要很长时间

我不是这方面的专家，但我会尝试直接回答您的许多问题
[顺便说一句，我应该为每个问题获得多个+代表！…只是开玩笑，如果我是在“为SO代表”中，我会远离发布，这将获得总计20个视图，其中一半的访问者对手头的概念有一个粗略的概念]

1）Q-学习两阶段的东西？
是的，Q-学习意味着两个阶段，一个学习阶段和一个行动阶段。与许多自动学习算法一样，在行动阶段可以“持续学习”

2）最优G矩阵的无限步数？ 不确定需要无限个学习周期才能学习最优Q矩阵的语句的位置。可以肯定的是（除非alpha和gamma因子不正确），该算法收敛速度很慢。这促使我跳过并评论你关于300x200游戏空间的想法，而且。。。对对于这样一个空间，一个给定的奖励模型，它将采取什么似乎无限得到一个“最佳”Q表。现在，从数学上讲，该算法可能永远不会达到最优nivarna，但对于实际解来说，处理渐近线就足够了

3）伽马在TD模型中的作用这表明了延迟奖励的重要性，在一条通向更高奖励的道路上（这里是你的模型）。这通常可以防止算法陷入解空间的局部极大值，但代价是使学习更慢
4）帮助学习大迷宫的建议冒着背叛Q学习本质的风险，你可以在离目标越来越远的地方启动机器人。这将有助于首先改善目标周围状态区域的Q矩阵，然后利用该部分学习的Q矩阵作为初始状态，在距离目标越来越大的半径内随机获取
另一种风险更大的方法（实际上可能进一步掩盖Q学习的真实本质）是改变R矩阵，以提供越来越高的回报，随机放置在离目标越来越近的位置。这种方法的缺点是，它可能会在解空间中引入许多局部极大值的机会，如果没有适当调整学习率和其他因素，算法可能会陷入困境
这两种方法（尤其是后者）都可以解释为解决方案中的“布线”。其他人会说，这仅仅是在混合中引入少量DP的一种方式
5）神经网络（NN）6）遗传算法（GA）
没有关于在混合物中添加NN或GA的意见。

我可能已经受够了自己的愚弄，上面的一些数学上不太准确的陈述
我不是这方面的专家，但我会尝试直接回答你的问题