Deep learning 为什么要将马尔可夫性引入强化学习?

Deep learning 为什么要将马尔可夫性引入强化学习?,deep-learning,reinforcement-learning,markov,Deep Learning,Reinforcement Learning,Markov,作为一个深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它对强化学习有什么好处。此外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?马尔可夫属性用于优化过程中的数学计算。但是请记住,它比您可能认为的更普遍适用。例如,如果在某个棋盘游戏中,您需要知道游戏的最后三种状态,这可能会违反马尔可夫属性;但是,如果您只是将“状态”重新定义为最后三个状态的串联,那么现在您又回到了MDP

作为一个深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它对强化学习有什么好处。此外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?

马尔可夫属性用于优化过程中的数学计算。但是请记住,它比您可能认为的更普遍适用。例如,如果在某个棋盘游戏中,您需要知道游戏的最后三种状态,这可能会违反马尔可夫属性;但是,如果您只是将“状态”重新定义为最后三个状态的串联,那么现在您又回到了MDP中。

马尔可夫属性用于优化过程中的数学计算。但是请记住,它比您可能认为的更普遍适用。例如,如果在某个棋盘游戏中,您需要知道游戏的最后三种状态,这可能会违反马尔可夫属性;但是,如果您只是简单地将“状态”重新定义为最后三个状态的串联,那么现在您又回到了MDP中。

此假设表示,当前状态提供了有关过去代理环境的所有方面所需的所有信息,这将对系统的未来产生影响。这是一个重要的定义,因为您可以将过程的动力学定义为p(s',r|s,a)。实际上,您不需要查看和计算系统的所有以前的状态来确定下一个可能的状态。

此假设表示,当前状态提供了有关过去代理环境的所有方面所需的所有信息,这些方面对系统的未来产生了影响。这是一个重要的定义,因为您可以将过程的动力学定义为p(s',r|s,a)。实际上,您不需要查看和计算系统的所有先前状态来确定下一个可能的状态