Tree MCTS处理N人游戏对手动作

Tree MCTS处理N人游戏对手动作,tree,machine-learning,artificial-intelligence,multiplayer,Tree,Machine Learning,Artificial Intelligence,Multiplayer,我想知道在MCT中如何处理N人游戏。对手的动作是否嵌入到搜索树中? 它们的价值生成方式是否与其他操作相同? 如果是这样,它们的值是否会以错误的方式更改父状态的总值? ai是一个很好的帮助网站,但涉及n人游戏。示例代码只是说明“n人游戏需要额外的逻辑” 提前谢谢。我认为这与标准的极大极小算法的情况相同。毕竟,MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量,每个玩家都能最大化他的结果 考虑到勘探政策,我认为理论上该政策不会改变,但在这一点上我可能是错的。我

我想知道在MCT中如何处理N人游戏。对手的动作是否嵌入到搜索树中? 它们的价值生成方式是否与其他操作相同? 如果是这样,它们的值是否会以错误的方式更改父状态的总值? ai是一个很好的帮助网站,但涉及n人游戏。示例代码只是说明“n人游戏需要额外的逻辑”


提前谢谢。

我认为这与标准的极大极小算法的情况相同。毕竟,MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量,每个玩家都能最大化他的结果


考虑到勘探政策,我认为理论上该政策不会改变,但在这一点上我可能是错的。

我认为这与标准极大极小算法的情况相同。毕竟,MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量,每个玩家都能最大化他的结果


考虑到勘探政策,我认为理论上该政策不会改变,但在这一点上我可能是错的。

事实上,这并不容易,因为仅仅是为少数几个能够最大化自身利润的其他参与者建模

对于多人游戏的问题,至少有几种不同的方法,包括:

  • max^n
    (最简单)
  • 偏执狂
  • 最佳回复搜索(BRS)
  • 联合混合器
基于MCTS的方法中的主要问题是找到轻量级模拟/评估与其中包含的知识之间的平衡。多人游戏在这个复杂的方程中引入了自己的参数,因此,有一些有趣的修改,可以找到比幼稚方法更好的解决方案(就有限的资源而言)。其中一种方法是“播放搜索”,详细描述见


两人游戏和多人游戏之间最重要的区别在于,在大多数两人游戏中,积分系统在某种程度上是“对称的”——如果我赢了,你输了,反之亦然。所以,假设我想赢,我可以把它看作是我想赢,我的对手想赢之间的一场战斗。一旦我们引入第三个玩家,它就不再那么简单了。现在,如果我赢了,一切都好了。但是另外两个球员不需要打赢,这就足以让我输了(他们中的任何一个都赢了),这是偏执策略的基础——我们假设所有的球员都在对抗我们,而不在乎谁真正赢。这替代了所需的模型(因为它们不再使任何利润最大化),这只是可能的场景之一。有了
N
玩家在董事会上,可能的联盟(及其组合)数量是巨大的。

事实上,这并不像仅仅为少数几个额外的玩家建模那样容易,他们可以最大化自己的利润

对于多人游戏的问题,至少有几种不同的方法,包括:

  • max^n
    (最简单)
  • 偏执狂
  • 最佳回复搜索(BRS)
  • 联合混合器
基于MCTS的方法中的主要问题是找到轻量级模拟/评估与其中包含的知识之间的平衡。多人游戏在这个复杂的方程中引入了自己的参数,因此,有一些有趣的修改,可以找到比幼稚方法更好的解决方案(就有限的资源而言)。其中一种方法是“播放搜索”,详细描述见


两人游戏和多人游戏之间最重要的区别在于,在大多数两人游戏中,积分系统在某种程度上是“对称的”——如果我赢了,你输了,反之亦然。所以,假设我想赢,我可以把它看作是我想赢,我的对手想赢之间的一场战斗。一旦我们引入第三个玩家,它就不再那么简单了。现在,如果我赢了,一切都好了。但是另外两个球员不需要打赢,这就足以让我输了(他们中的任何一个都赢了),这是偏执策略的基础——我们假设所有的球员都在对抗我们,而不在乎谁真正赢。这替代了所需的模型(因为它们不再使任何利润最大化),这只是可能的场景之一。当
N
玩家在棋盘上时,可能的联合(及其组合)数量是巨大的。

因此,如果其他玩家只是尽最大努力为自己赢得一个简单的最佳选择,对吗?因此,在树中,对应于对手玩家移动的节点将具有我们可以达到的最小期望值?如果我们假设,每个玩家尝试最大化其利润,并且假设彼此都这样做,那么我们可以在每个节点计算该玩家的最大值。我们的最小值与多人游戏中其他玩家的最大值不同,所以这就像库德库达克在一棵树中说的,每个节点中的每个玩家都有一个值。当我们模拟对手的移动时,我们遍历对手的值,为他选择最有希望的值,并计算所有其他玩家的结果值?是的,这是列出的最简单的情况,实际上很少是这样。这不仅是因为玩家可以有不同的目标来实现利润最大化,还因为他们根本没有玩得那么好,因此他们可能(不是有意地)最大化其他价值(就像其他玩家的利润一样),因此如果其他玩家只是尽其所能为自己赢得一个简单的最佳选择,够了吧?因此,在树中,对应于对手玩家移动的节点将具有我们可以达到的最小期望值?如果我们假设,每个玩家都试图最大化其利润,并且假设彼此都这样做,那么我们