Testing dqn的培训部分以及与SVR和RF的比较

Testing dqn的培训部分以及与SVR和RF的比较,testing,deep-learning,training-data,reinforcement-learning,unsupervised-learning,Testing,Deep Learning,Training Data,Reinforcement Learning,Unsupervised Learning,我在理解DQN的培训部分时遇到一些问题。 哪里是DQN中的Xtrain和Ytrain?因为在DQN算法中不清楚 https://cdn-images-1.medium.com/max/1600/1*nb61CxDTTAWR1EJnbCl1cA.png 另外,如果我需要比较我的dqn结果与随机森林和支持向量回归的结果。我需要为他们准备Xtrain和Ytrain (我所说的替换是指用有监督的学习或无监督的学习方法替换深度学习部分?DQN是一种强化学习算法,没有直接的X_序列或Y_序列,因为训练数据

我在理解DQN的培训部分时遇到一些问题。 哪里是DQN中的XtrainYtrain?因为在DQN算法中不清楚

https://cdn-images-1.medium.com/max/1600/1*nb61CxDTTAWR1EJnbCl1cA.png
另外,如果我需要比较我的dqn结果与随机森林支持向量回归的结果。我需要为他们准备Xtrain和Ytrain


(我所说的替换是指用有监督的学习或无监督的学习方法替换深度学习部分?DQN是一种强化学习算法,没有直接的X_序列或Y_序列,因为训练数据是通过与环境交互获得的经验元组(仿真器)。在您包含的图像中,您可以将Q值视为目标(y),序列s和预处理序列phi视为输入(x)


你无法真正将DQN与RF或SVR进行比较,因为DQN是强化学习,而RF/SVR是监督学习算法,它们不能解决相同的问题,因此无法进行比较。

谢谢Matias,为什么它们的问题不同?是因为监督学习和RL中的训练和测试定义吗?不是,因为RL问题是nd监督学习是以一种完全不同的方式制定的。我想说,如果你不知道这一区别,你应该在深入研究强化学习之前先了解这一点。我想我现在会坚持让你研究机器学习的子领域,即监督、非监督和强化学习。这些涉及三个方面这是一个完全不同的问题,因此要求比较实际上是毫无意义的。马蒂斯,你的想法是什么?(我所说的替换是指用有监督的学习或无监督的学习方法替换深度学习部分?)1-使用深度Q学习代替运行Q学习有什么好处?以下原因正确吗?它近似Q的数量而不是精确的数量,其好处是我们可以在没有所有Q表的情况下使用它?在深度强化学习中,例如在深度Q学习中,我们不能计算精确的Q表(当我们因为巨大的工作空间而无法找到完整的Q表时,它更有用)!这就是DQN与Q学习方法相比的优势所在!