Language agnostic 改进Q-学习
我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始,并到达目标状态(例如,对于有门的瓷砖)。 当前,当它想要移动到另一个磁贴时,它将移动到该磁贴,但我在想,将来我可能会添加一个随机的机会,而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100,其余操作将产生0 我使用的是找到的算法,可以在下面的图像中看到 现在,关于这一点,我有一些问题:Language agnostic 改进Q-学习,language-agnostic,artificial-intelligence,genetic-algorithm,reinforcement-learning,Language Agnostic,Artificial Intelligence,Genetic Algorithm,Reinforcement Learning,我目前正在使用Q-Learning尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始,并到达目标状态(例如,对于有门的瓷砖)。 当前,当它想要移动到另一个磁贴时,它将移动到该磁贴,但我在想,将来我可能会添加一个随机的机会,而不是移动到另一个磁贴。它只能上下左右移动。达到目标状态将产生+100,其余操作将产生0 我使用的是找到的算法,可以在下面的图像中看到 现在,关于这一点,我有一些问题: 使用Q-Learning时,有点像 神经网络,我必须 学习阶段之间的区别 和使
Q(a, s) = Q(a, s) * alpha * [R(a, s) + gamma * Max { Q(a', s' } - Q(a, s)]
对于alpha=1,似乎是
图中首先显示的一个。什么
这有什么区别吗,
这里我不是这方面的专家,但我会尝试直接回答您的许多问题
[顺便说一句,我应该为每个问题获得多个+代表!…只是开玩笑,如果我是在“为SO代表”中,我会远离发布,这将获得总计20个视图,其中一半的访问者对手头的概念有一个粗略的概念] 1)Q-学习两阶段的东西?
是的,Q-学习意味着两个阶段,一个学习阶段和一个行动阶段。与许多自动学习算法一样,在行动阶段可以“持续学习” 2)最优G矩阵的无限步数? 不确定需要无限个学习周期才能学习最优Q矩阵的语句的位置。可以肯定的是(除非alpha和gamma因子不正确),该算法收敛速度很慢。这促使我跳过并评论你关于300x200游戏空间的想法,而且。。。对对于这样一个空间,一个给定的奖励模型,它将采取什么似乎无限得到一个“最佳”Q表。现在,从数学上讲,该算法可能永远不会达到最优nivarna,但对于实际解来说,处理渐近线就足够了 3)伽马在TD模型中的作用 这表明了延迟奖励的重要性,在一条通向更高奖励的道路上(这里是你的模型)。这通常可以防止算法陷入解空间的局部极大值,但代价是使学习更慢 4)帮助学习大迷宫的建议 冒着背叛Q学习本质的风险,你可以在离目标越来越远的地方启动机器人。这将有助于首先改善目标周围状态区域的Q矩阵,然后利用该部分学习的Q矩阵作为初始状态,在距离目标越来越大的半径内随机获取 另一种风险更大的方法(实际上可能进一步掩盖Q学习的真实本质)是改变R矩阵,以提供越来越高的回报,随机放置在离目标越来越近的位置。这种方法的缺点是,它可能会在解空间中引入许多局部极大值的机会,如果没有适当调整学习率和其他因素,算法可能会陷入困境 这两种方法(尤其是后者)都可以解释为解决方案中的“布线”。其他人会说,这仅仅是在混合中引入少量DP的一种方式 5)神经网络(NN)6)遗传算法(GA)
没有关于在混合物中添加NN或GA的意见。
我可能已经受够了自己的愚弄,上面的一些数学上不太准确的陈述 我不是这方面的专家,但我会尝试直接回答你的问题