Python 如何在OpenAI gym中列出每个州可能的继承国？（严格适用于普通MDP）_Python_Machine Learning_Artificial Intelligence_Reinforcement Learning_Openai Gym

Python 如何在OpenAI gym中列出每个州可能的继承国？（严格适用于普通MDP）

python machine-learning artificial-intelligence

Python 如何在OpenAI gym中列出每个州可能的继承国？（严格适用于普通MDP）,python,machine-learning,artificial-intelligence,reinforcement-learning,openai-gym,Python,Machine Learning,Artificial Intelligence,Reinforcement Learning,Openai Gym,是否有方法遍历每个状态，强制环境进入该状态，然后采取步骤，然后使用返回的“info”字典查看所有可能的后续状态还是一种更简单的方法来恢复每个国家所有可能的继承国，也许是隐藏在某个地方我在网上看到一个叫做MuJoKo或类似的东西有一个set_state功能，但我不想创建一个新的环境，我只想设置openAi gym已经提供的环境的状态上下文：尝试实现拓扑序值迭代，这需要生成一个图，其中每个状态都有一条到任何操作都可能转换到的任何状态的边我意识到，很明显，在一些游戏中，这只是没有提供，但对于那

是否有方法遍历每个状态，强制环境进入该状态，然后采取步骤，然后使用返回的“info”字典查看所有可能的后续状态

还是一种更简单的方法来恢复每个国家所有可能的继承国，也许是隐藏在某个地方

我在网上看到一个叫做MuJoKo或类似的东西有一个set_state功能，但我不想创建一个新的环境，我只想设置openAi gym已经提供的环境的状态

上下文：尝试实现拓扑序值迭代，这需要生成一个图，其中每个状态都有一条到任何操作都可能转换到的任何状态的边

我意识到，很明显，在一些游戏中，这只是没有提供，但对于那些在那里，有办法吗

（除了运行游戏和采取每一步的蛮力方法之外，我还没有在任何状态下采取任何步骤，直到我到达所有状态并看到所有东西，这取决于游戏可能需要永远）

这是我第一次使用OpenAi健身房，所以请尽可能详细地解释。例如，我不知道包装是什么

谢谢

不，OpenAI gym没有提供所有可能的继承国的方法。一般来说，这就是用OpenAI gym创建算法的要点。你正在训练一名特工，以了解其行动的结果；如果它能够展望未来，知道其行动的结果是什么，那么它就有点达不到目的

您描述的暴力方法可能是实现您所描述内容的最简单方法