Language agnostic 改进Q-学习

Language agnostic 改进Q-学习,language-agnostic,artificial-intelligence,genetic-algorithm,reinforcement-learning,Language Agnostic,Artificial Intelligence,Genetic Algorithm,Reinforcement Learning,我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始,并到达目标状态(例如,对于有门的瓷砖)。 当前,当它想要移动到另一个磁贴时,它将移动到该磁贴,但我在想,将来我可能会添加一个随机的机会,而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100,其余操作将产生0 我使用的是找到的算法,可以在下面的图像中看到 现在,关于这一点,我有一些问题: 使用Q-Learning时,有点像 神经网络,我必须 学习阶段之间的区别 和使

我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始,并到达目标状态(例如,对于有门的瓷砖)。 当前,当它想要移动到另一个磁贴时,它将移动到该磁贴,但我在想,将来我可能会添加一个随机的机会,而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100,其余操作将产生0

我使用的是找到的算法,可以在下面的图像中看到

现在,关于这一点,我有一些问题:

  • 使用Q-Learning时,有点像 神经网络,我必须 学习阶段之间的区别 和使用阶段?我是说,看起来 这就是他们在第一场比赛中所展示的 图片是一个学习型的图片,在 第二张图片是一张正在使用的图片
  • 我在某个地方读到这需要一段时间 要达到的步骤数不胜数 最佳Q值表。是吗 是吗?我想说那不是真的,但我 这里一定少了什么
  • 我也听说过TD(时态) 差异),这似乎是 代表如下: 表达方式:

    Q(a, s) = Q(a, s) * alpha * [R(a, s) + gamma * Max { Q(a', s' } - Q(a, s)]
    
    对于alpha=1,似乎是 图中首先显示的一个。什么 这有什么区别吗, 这里

  • 我遇到了一些麻烦,如果 我试了一间很大的房间(300x200) 例如,像素)。因为它 基本上是随机运行的,如果 房间很大,那么需要一段时间 有很多时间可以从 从第一个状态到目标状态。什么 我可以用什么方法来加速它?我 我想也许有人坐满了 无论是真是假,关于 不管我在那集里有什么 是否已经处于那种状态。 如果是,我会放弃它,如果不是,我会放弃它 去那里。如果我已经在 所有这些州,我都会去 随机的。这样的话 就像我现在在做什么,知道吗 我会少重复一次 我现在是这样做的
  • 我想试试别的,而不是别的 我的Q值查找表,所以我 在使用神经网络时思考 带反向传播的网络 这我可能会试着喝一杯 每个动作的神经网络(up, 下,左,右),就像它看起来 什么能产生最好的结果。有 任何其他方法(除SVM外 似乎太难实施了 我自己)我可以使用和 那会给我带来好处的 Q值函数逼近
  • 你认为遗传算法吗 将在这方面产生良好的效果 情况,使用Q值矩阵 作为它的基础?我怎么能 测试我的健身功能?它给我的印象是遗传算法通常用于更随机/复杂的事情。如果我们仔细观察,我们会注意到Q值有一个明显的趋势——在目标附近Q值越高,离目标越远Q值越低。要想通过遗传算法得出这个结论可能需要很长时间

  • 我不是这方面的专家,但我会尝试直接回答您的许多问题
    [顺便说一句,我应该为每个问题获得多个+代表!…只是开玩笑,如果我是在“为SO代表”中,我会远离发布,这将获得总计20个视图,其中一半的访问者对手头的概念有一个粗略的概念]

    1)Q-学习两阶段的东西?
    是的,Q-学习意味着两个阶段,一个学习阶段和一个行动阶段。与许多自动学习算法一样,在行动阶段可以“持续学习”

    2)最优G矩阵的无限步数? 不确定需要无限个学习周期才能学习最优Q矩阵的语句的位置。可以肯定的是(除非alpha和gamma因子不正确),该算法收敛速度很慢。这促使我跳过并评论你关于300x200游戏空间的想法,而且。。。对对于这样一个空间,一个给定的奖励模型,它将采取什么似乎无限得到一个“最佳”Q表。现在,从数学上讲,该算法可能永远不会达到最优nivarna,但对于实际解来说,处理渐近线就足够了

    3)伽马在TD模型中的作用 这表明了延迟奖励的重要性,在一条通向更高奖励的道路上(这里是你的模型)。这通常可以防止算法陷入解空间的局部极大值,但代价是使学习更慢

    4)帮助学习大迷宫的建议 冒着背叛Q学习本质的风险,你可以在离目标越来越远的地方启动机器人。这将有助于首先改善目标周围状态区域的Q矩阵,然后利用该部分学习的Q矩阵作为初始状态,在距离目标越来越大的半径内随机获取

    另一种风险更大的方法(实际上可能进一步掩盖Q学习的真实本质)是改变R矩阵,以提供越来越高的回报,随机放置在离目标越来越近的位置。这种方法的缺点是,它可能会在解空间中引入许多局部极大值的机会,如果没有适当调整学习率和其他因素,算法可能会陷入困境

    这两种方法(尤其是后者)都可以解释为解决方案中的“布线”。其他人会说,这仅仅是在混合中引入少量DP的一种方式

    5)神经网络(NN)6)遗传算法(GA)
    没有关于在混合物中添加NN或GA的意见。

    我可能已经受够了自己的愚弄,上面的一些数学上不太准确的陈述

    我不是这方面的专家,但我会尝试直接回答你的问题