Python 如何在OpenAI gym中列出每个州可能的继承国?(严格适用于普通MDP)

Python 如何在OpenAI gym中列出每个州可能的继承国?(严格适用于普通MDP),python,machine-learning,artificial-intelligence,reinforcement-learning,openai-gym,Python,Machine Learning,Artificial Intelligence,Reinforcement Learning,Openai Gym,是否有方法遍历每个状态,强制环境进入该状态,然后采取步骤,然后使用返回的“info”字典查看所有可能的后续状态 还是一种更简单的方法来恢复每个国家所有可能的继承国,也许是隐藏在某个地方 我在网上看到一个叫做MuJoKo或类似的东西有一个set_state功能,但我不想创建一个新的环境,我只想设置openAi gym已经提供的环境的状态 上下文:尝试实现拓扑序值迭代,这需要生成一个图,其中每个状态都有一条到任何操作都可能转换到的任何状态的边 我意识到,很明显,在一些游戏中,这只是没有提供,但对于那

是否有方法遍历每个状态,强制环境进入该状态,然后采取步骤,然后使用返回的“info”字典查看所有可能的后续状态

还是一种更简单的方法来恢复每个国家所有可能的继承国,也许是隐藏在某个地方

我在网上看到一个叫做MuJoKo或类似的东西有一个set_state功能,但我不想创建一个新的环境,我只想设置openAi gym已经提供的环境的状态

上下文:尝试实现拓扑序值迭代,这需要生成一个图,其中每个状态都有一条到任何操作都可能转换到的任何状态的边

我意识到,很明显,在一些游戏中,这只是没有提供,但对于那些在那里,有办法吗

(除了运行游戏和采取每一步的蛮力方法之外,我还没有在任何状态下采取任何步骤,直到我到达所有状态并看到所有东西,这取决于游戏可能需要永远)

这是我第一次使用OpenAi健身房,所以请尽可能详细地解释。例如,我不知道包装是什么


谢谢

不,OpenAI gym没有提供所有可能的继承国的方法。一般来说,这就是用OpenAI gym创建算法的要点。你正在训练一名特工,以了解其行动的结果;如果它能够展望未来,知道其行动的结果是什么,那么它就有点达不到目的

您描述的暴力方法可能是实现您所描述内容的最简单方法