Machine learning 何时在TD学习中使用蒙特卡罗，反之亦然_Machine Learning_Reinforcement Learning_Montecarlo_Temporal Difference

Machine learning 何时在TD学习中使用蒙特卡罗，反之亦然

machine-learning

Machine learning 何时在TD学习中使用蒙特卡罗，反之亦然,machine-learning,reinforcement-learning,montecarlo,temporal-difference,Machine Learning,Reinforcement Learning,Montecarlo,Temporal Difference,在研究强化学习时，以及在研究无模型RL时，我们通常使用两种方法： TD学习蒙特卡罗什么时候它们中的每一个都被用来代替另一个？换句话说，我们如何找出什么方法最适合我们的问题？的第6.1节和第6.2节非常直观地理解了蒙特卡罗和TD学习之间的差异话虽如此，MC方法与非情节性任务之间当然存在明显的不兼容性。在这种情况下，您将始终需要某种引导。相关

在研究强化学习时，以及在研究无模型RL时，我们通常使用两种方法：

TD学习
蒙特卡罗

什么时候它们中的每一个都被用来代替另一个？换句话说，我们如何找出什么方法最适合我们的问题？

的第6.1节和第6.2节非常直观地理解了蒙特卡罗和TD学习之间的差异

话虽如此，MC方法与非情节性任务之间当然存在明显的不兼容性。在这种情况下，您将始终需要某种引导。