Deep learning 在游戏过程中,部分可观察环境是否需要蒙特卡罗树搜索?

Deep learning 在游戏过程中,部分可观察环境是否需要蒙特卡罗树搜索?,deep-learning,reinforcement-learning,monte-carlo-tree-search,Deep Learning,Reinforcement Learning,Monte Carlo Tree Search,我理解,在完全可观察的环境(国际象棋/围棋等)下,您可以运行具有最佳策略网络的MCTS,以用于未来规划目的。这将允许您为游戏选择操作,这将导致该状态的最大预期回报 然而,在部分可观察的环境中,我们是否仍然需要在游戏过程中运行MCT?为什么我们不能在当前状态下从经过训练的最优策略中选择最大动作?MCT在这里有什么用途 我是强化学习的新手,正在尝试理解在部分可观察环境中进行MCT/规划的目的。您好。请在上问这个问题。这个问题在这里是离题的。堆栈溢出是用来解决编程问题的。哦,好的。谢谢。问题已移至:对

我理解,在完全可观察的环境(国际象棋/围棋等)下,您可以运行具有最佳策略网络的MCTS,以用于未来规划目的。这将允许您为游戏选择操作,这将导致该状态的最大预期回报

然而,在部分可观察的环境中,我们是否仍然需要在游戏过程中运行MCT?为什么我们不能在当前状态下从经过训练的最优策略中选择最大动作?MCT在这里有什么用途


我是强化学习的新手,正在尝试理解在部分可观察环境中进行MCT/规划的目的。

您好。请在上问这个问题。这个问题在这里是离题的。堆栈溢出是用来解决编程问题的。哦,好的。谢谢。问题已移至:对于任何感兴趣的人。您应该从此处删除此问题。请注意,这并不能保证你会得到答案。嗨。请在上问这个问题。这个问题在这里是离题的。堆栈溢出是用来解决编程问题的。哦,好的。谢谢。问题已移至:对于任何感兴趣的人。您应该从此处删除此问题。注意,这并不能保证你会得到答案。