Machine learning 何时在TD学习中使用蒙特卡罗,反之亦然

Machine learning 何时在TD学习中使用蒙特卡罗,反之亦然,machine-learning,reinforcement-learning,montecarlo,temporal-difference,Machine Learning,Reinforcement Learning,Montecarlo,Temporal Difference,在研究强化学习时,以及在研究无模型RL时,我们通常使用两种方法: TD学习 蒙特卡罗 什么时候它们中的每一个都被用来代替另一个?换句话说,我们如何找出什么方法最适合我们的问题?的第6.1节和第6.2节非常直观地理解了蒙特卡罗和TD学习之间的差异 话虽如此,MC方法与非情节性任务之间当然存在明显的不兼容性。在这种情况下,您将始终需要某种引导。相关

在研究强化学习时,以及在研究无模型RL时,我们通常使用两种方法:

  • TD学习
  • 蒙特卡罗
什么时候它们中的每一个都被用来代替另一个?换句话说,我们如何找出什么方法最适合我们的问题?

的第6.1节和第6.2节非常直观地理解了蒙特卡罗和TD学习之间的差异

话虽如此,MC方法与非情节性任务之间当然存在明显的不兼容性。在这种情况下,您将始终需要某种引导。

相关