Machine learning Monte Carlo树搜索-目标相反的两个玩家游戏的子选择函数背后的直觉_Machine Learning_Montecarlo_Game Theory_Monte Carlo Tree Search

Machine learning Monte Carlo树搜索-目标相反的两个玩家游戏的子选择函数背后的直觉

machine-learning

Machine learning Monte Carlo树搜索-目标相反的两个玩家游戏的子选择函数背后的直觉,machine-learning,montecarlo,game-theory,monte-carlo-tree-search,Machine Learning,Montecarlo,Game Theory,Monte Carlo Tree Search,关于“你好世界”的简单问题“tic-tac-toe”的MCT示例让我们假设我们有一个董事会，我们想做出一个最佳决策。正如我所理解的，在模拟（直到满足leaf）时，连续节点的选择是由探索/利用权衡函数决定的（就像在wikipedia上一样）。我真的很想知道这个函数的第一个组成部分（利用）背后的直觉是什么，特别是对于两个有Opposite目标的玩家之间的游戏。然后，“最有希望”的含义会根据谁采取行动而变化。这个函数是否应该根据谁下一步行动（尤其是第一步行动）而改变？是的，应该实现等式的这一部分，以

关于“你好世界”的简单问题“tic-tac-toe”的MCT示例

让我们假设我们有一个董事会，我们想做出一个最佳决策。正如我所理解的，在模拟（直到满足leaf）时，连续节点的选择是由探索/利用权衡函数决定的（就像在wikipedia上一样）。我真的很想知道这个函数的第一个组成部分（利用）背后的直觉是什么，特别是对于两个有Opposite目标的玩家之间的游戏。然后，“最有希望”的含义会根据谁采取行动而变化。这个函数是否应该根据谁下一步行动（尤其是第一步行动）而改变？

是的，应该实现等式的这一部分，以考虑从代理/玩家的角度进行的评估，该代理/玩家可以在该节点中选择一个行动

对于单代理设置，实现非常简单；简单地总是最大化

对于零和、基于回合的两人游戏设置，您希望在最大化或最小化等式中的利用部分之间进行选择（注意：始终最大化探索项！）。这也可以通过在对手移动的节点中将该项乘以

-1

来实现

其他设置也可以，但需要稍微多一些实施工作（例如，在非零和或有两个以上玩家的设置中，为不同玩家保留不同的平均分数）