Tree MCTS处理N人游戏对手动作_Tree_Machine Learning_Artificial Intelligence_Multiplayer

Tree MCTS处理N人游戏对手动作

tree machine-learning artificial-intelligence

Tree MCTS处理N人游戏对手动作,tree,machine-learning,artificial-intelligence,multiplayer,Tree,Machine Learning,Artificial Intelligence,Multiplayer,我想知道在MCT中如何处理N人游戏。对手的动作是否嵌入到搜索树中？它们的价值生成方式是否与其他操作相同？如果是这样，它们的值是否会以错误的方式更改父状态的总值？ ai是一个很好的帮助网站，但涉及n人游戏。示例代码只是说明“n人游戏需要额外的逻辑” 提前谢谢。我认为这与标准的极大极小算法的情况相同。毕竟，MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量，每个玩家都能最大化他的结果考虑到勘探政策，我认为理论上该政策不会改变，但在这一点上我可能是错的。我

我想知道在MCT中如何处理N人游戏。对手的动作是否嵌入到搜索树中？它们的价值生成方式是否与其他操作相同？如果是这样，它们的值是否会以错误的方式更改父状态的总值？ ai是一个很好的帮助网站，但涉及n人游戏。示例代码只是说明“n人游戏需要额外的逻辑”

提前谢谢。

我认为这与标准的极大极小算法的情况相同。毕竟，MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量，每个玩家都能最大化他的结果

考虑到勘探政策，我认为理论上该政策不会改变，但在这一点上我可能是错的。

我认为这与标准极大极小算法的情况相同。毕竟，MCST只是一种估计完全极大极小树的方法。所以你们可以把这个故事作为N个奖励的游戏价值向量，每个玩家都能最大化他的结果

考虑到勘探政策，我认为理论上该政策不会改变，但在这一点上我可能是错的。

事实上，这并不容易，因为仅仅是为少数几个能够最大化自身利润的其他参与者建模

对于多人游戏的问题，至少有几种不同的方法，包括：

```
max^n
```
（最简单）
偏执狂
最佳回复搜索（BRS）
联合混合器

基于MCTS的方法中的主要问题是找到轻量级模拟/评估与其中包含的知识之间的平衡。多人游戏在这个复杂的方程中引入了自己的参数，因此，有一些有趣的修改，可以找到比幼稚方法更好的解决方案（就有限的资源而言）。其中一种方法是“播放搜索”，详细描述见

两人游戏和多人游戏之间最重要的区别在于，在大多数两人游戏中，积分系统在某种程度上是“对称的”——如果我赢了，你输了，反之亦然。所以，假设我想赢，我可以把它看作是我想赢，我的对手想赢之间的一场战斗。一旦我们引入第三个玩家，它就不再那么简单了。现在，如果我赢了，一切都好了。但是另外两个球员不需要打赢，这就足以让我输了（他们中的任何一个都赢了），这是偏执策略的基础——我们假设所有的球员都在对抗我们，而不在乎谁真正赢。这替代了所需的模型（因为它们不再使任何利润最大化），这只是可能的场景之一。有了

玩家在董事会上，可能的联盟（及其组合）数量是巨大的。

事实上，这并不像仅仅为少数几个额外的玩家建模那样容易，他们可以最大化自己的利润

对于多人游戏的问题，至少有几种不同的方法，包括：

```
max^n
```
（最简单）
偏执狂
最佳回复搜索（BRS）
联合混合器

玩家在棋盘上时，可能的联合（及其组合）数量是巨大的。

因此，如果其他玩家只是尽最大努力为自己赢得一个简单的最佳选择，对吗？因此，在树中，对应于对手玩家移动的节点将具有我们可以达到的最小期望值？如果我们假设，每个玩家尝试最大化其利润，并且假设彼此都这样做，那么我们可以在每个节点计算该玩家的最大值。我们的最小值与多人游戏中其他玩家的最大值不同，所以这就像库德库达克在一棵树中说的，每个节点中的每个玩家都有一个值。当我们模拟对手的移动时，我们遍历对手的值，为他选择最有希望的值，并计算所有其他玩家的结果值？是的，这是列出的最简单的情况，实际上很少是这样。这不仅是因为玩家可以有不同的目标来实现利润最大化，还因为他们根本没有玩得那么好，因此他们可能（不是有意地）最大化其他价值（就像其他玩家的利润一样），因此如果其他玩家只是尽其所能为自己赢得一个简单的最佳选择，够了吧？因此，在树中，对应于对手玩家移动的节点将具有我们可以达到的最小期望值？如果我们假设，每个玩家都试图最大化其利润，并且假设彼此都这样做，那么我们