Python 未定义下一状态的机器人Q学习算法

Python 未定义下一状态的机器人Q学习算法,python,python-3.x,numpy,reinforcement-learning,q-learning,Python,Python 3.x,Numpy,Reinforcement Learning,Q Learning,我是机器学习新手,我正在开发一种环境动态的机器人。 我正在使用python作为我的项目的编程语言 我有一个目标状态,机器人有四个动作,比如向前、向后、向右和向左 问题是,当机器人执行一个动作时,我无法定义下一个状态。但我可以在每一集之后确定状态是否为目标状态 我如何将强化学习模型应用于此。我可以使用pomdp吗?即使环境是动态的,你也应该有一些运动模型的概念,在这个模型中,离散动作应该导致机器人向前“一步”直行。在网格化的世界中,这很容易,但是,在连续的环境中,您可以网格化世界,并且仍然使用离散

我是机器学习新手,我正在开发一种环境动态的机器人。 我正在使用python作为我的项目的编程语言

我有一个目标状态,机器人有四个动作,比如向前、向后、向右和向左

问题是,当机器人执行一个动作时,我无法定义下一个状态。但我可以在每一集之后确定状态是否为目标状态


我如何将强化学习模型应用于此。我可以使用pomdp吗?

即使环境是动态的,你也应该有一些运动模型的概念,在这个模型中,离散动作应该导致机器人向前“一步”直行。在网格化的世界中,这很容易,但是,在连续的环境中,您可以网格化世界,并且仍然使用离散动作。如果下一个状态未定义,则机器学习/决策算法无法工作