Machine learning Monte Carlo树搜索-目标相反的两个玩家游戏的子选择函数背后的直觉

Machine learning Monte Carlo树搜索-目标相反的两个玩家游戏的子选择函数背后的直觉,machine-learning,montecarlo,game-theory,monte-carlo-tree-search,Machine Learning,Montecarlo,Game Theory,Monte Carlo Tree Search,关于“你好世界”的简单问题“tic-tac-toe”的MCT示例 让我们假设我们有一个董事会,我们想做出一个最佳决策。正如我所理解的,在模拟(直到满足leaf)时,连续节点的选择是由探索/利用权衡函数决定的(就像在wikipedia上一样)。我真的很想知道这个函数的第一个组成部分(利用)背后的直觉是什么,特别是对于两个有Opposite目标的玩家之间的游戏。然后,“最有希望”的含义会根据谁采取行动而变化。这个函数是否应该根据谁下一步行动(尤其是第一步行动)而改变?是的,应该实现等式的这一部分,以

关于“你好世界”的简单问题“tic-tac-toe”的MCT示例


让我们假设我们有一个董事会,我们想做出一个最佳决策。正如我所理解的,在模拟(直到满足leaf)时,连续节点的选择是由探索/利用权衡函数决定的(就像在wikipedia上一样)。我真的很想知道这个函数的第一个组成部分(利用)背后的直觉是什么,特别是对于两个有Opposite目标的玩家之间的游戏。然后,“最有希望”的含义会根据谁采取行动而变化。这个函数是否应该根据谁下一步行动(尤其是第一步行动)而改变?

是的,应该实现等式的这一部分,以考虑从代理/玩家的角度进行的评估,该代理/玩家可以在该节点中选择一个行动

对于单代理设置,实现非常简单;简单地总是最大化

对于零和、基于回合的两人游戏设置,您希望在最大化或最小化等式中的利用部分之间进行选择(注意:始终最大化探索项!)。这也可以通过在对手移动的节点中将该项乘以
-1
来实现

其他设置也可以,但需要稍微多一些实施工作(例如,在非零和或有两个以上玩家的设置中,为不同玩家保留不同的平均分数)