Machine learning Q-学习、时差和基于模型的强化学习

Machine learning Q-学习、时差和基于模型的强化学习,machine-learning,reinforcement-learning,q-learning,temporal-difference,Machine Learning,Reinforcement Learning,Q Learning,Temporal Difference,我在大学学习一门叫做“智能机器”的课程。我们介绍了3种强化学习的方法,这些方法让我们直观地知道何时使用它们,我引述如下: Q-Learning——当MDP无法解决时最好 时间差异学习-当MDP已知或可以学习但无法解决时,效果最佳 基于模型-无法学习MDP时最佳 有什么好的例子可以解释什么时候选择一种方法而不是另一种方法吗?时差是。它可以用于学习V函数和Q函数,而Q-learning是用于学习Q函数的特定TD算法。如Don Reba所述,您需要Q函数来执行操作(例如,遵循epsilon贪婪策略)。

我在大学学习一门叫做“智能机器”的课程。我们介绍了3种强化学习的方法,这些方法让我们直观地知道何时使用它们,我引述如下:

  • Q-Learning——当MDP无法解决时最好
  • 时间差异学习-当MDP已知或可以学习但无法解决时,效果最佳
  • 基于模型-无法学习MDP时最佳

  • 有什么好的例子可以解释什么时候选择一种方法而不是另一种方法吗?

    时差是。它可以用于学习V函数和Q函数,而Q-learning是用于学习Q函数的特定TD算法。如Don Reba所述,您需要Q函数来执行操作(例如,遵循epsilon贪婪策略)。如果你只有V函数,你仍然可以通过迭代所有可能的下一个状态并选择将你带到具有最高V值的状态的动作来推导Q函数。对于示例和更多见解,我建议使用

    无模型RL中,您不学习状态转换函数(模型),只能依赖样本。然而,您可能也对学习它感兴趣,例如,因为您无法收集许多样本,并且希望生成一些虚拟样本。在本例中,我们讨论基于模型的
    RL。
    基于模型的RL在机器人技术中非常常见,在机器人技术中,您无法执行许多真实的模拟,否则机器人将崩溃。这是一个很好的调查,有很多例子(但它只讨论策略搜索算法)。再举一个例子来看看。在这里,作者学习了一个高斯过程(连同一个策略)来近似机器人的正向模型,以模拟轨迹并减少真实机器人交互的次数。

    Q-learning是一种时间差分算法。Q-learning不是用来计算Q值吗,时间差分学习用于计算值函数?[它们是相关的,但我猜不完全相同]还是我弄错了?V是状态值函数,Q是动作值函数,Q-learning是一种特定的非策略时态差分学习算法。您可以使用不同的TD或非TD方法学习Q或V,这两种方法都可以基于模型,也可以不基于模型。感谢语义,但它仍然无法帮助我找到何时使用哪种方法的示例。什么时候最好选择Q值而不是V函数?为了形成策略,您需要动作值函数。您可以直接学习它,或者如果您知道状态转移概率函数,您可以从状态值函数中检索它。