Algorithm 蒙特卡罗树搜索,反向传播(备份)步骤:为什么改变奖励价值的角度?
我一直在阅读Browne等人的Monte Carlo树搜索调查报告: “蒙特卡罗树搜索方法综述” 我正在和p上的一段伪代码搏斗。9我的问题以类似的形式出现在Backup和BackupNegamax函数中 假设我是两人零和游戏中的玩家1。(因此,使用BackupNegamax函数)轮到我移动了,我使用MCT选择移动。在BackupNegamax中,为什么在备份树时会将增量值取反?我知道在一个两人零和游戏中,如果玩家1(我)的奖励是delta,那么玩家2的奖励是-delta。但是整棵树不应该是从玩家1的角度来看的吗?(如果我没有弄错的话,这将类似于在极大极小树中对节点进行评级。) 如果Q值的透视图根据您所在的树的哪个级别来回切换,这不会打乱BestChild函数中显示的计算吗?具体来说,假设某个节点v的Q值非常高,因为它通常会给玩家1带来高回报。给定的伪代码似乎表明,v的父代,我称之为u,可能有一个非常低(非常负)的Q值(当然,u的Q值也会解释它的其他子代的Q值) 所以对我来说,u(父母)的Q值很低,而v(孩子)的Q值很高是没有意义的。我知道在伪代码中v是从玩家1的角度来看的,u是从玩家2的角度来看的,但我的问题是为什么。为什么两个节点的Q值不是从玩家1的角度存储的?这样,u和v都将具有高Q值,因此具有高利用率,并且根据BestChild函数,它们都被认为对进一步利用有价值 (我是根据minimax的经验来到MCTS的,在minimax中,整个树都是从Max的角度来看的,所以这就是为什么我在这里挣扎于不同的想法。) 我的问题也适用于备份-为什么每个Q值都会根据玩家在该树级别的视角进行更新,而不是从“我的”视角进行更新Algorithm 蒙特卡罗树搜索,反向传播(备份)步骤:为什么改变奖励价值的角度?,algorithm,artificial-intelligence,montecarlo,Algorithm,Artificial Intelligence,Montecarlo,我一直在阅读Browne等人的Monte Carlo树搜索调查报告: “蒙特卡罗树搜索方法综述” 我正在和p上的一段伪代码搏斗。9我的问题以类似的形式出现在Backup和BackupNegamax函数中 假设我是两人零和游戏中的玩家1。(因此,使用BackupNegamax函数)轮到我移动了,我使用MCT选择移动。在BackupNegamax中,为什么在备份树时会将增量值取反?我知道在一个两人零和游戏中,如果玩家1(我)的奖励是delta,那么玩家2的奖励是-delta。但是整棵树不应该是从玩
我希望我的问题已经清楚了。非常感谢你的帮助 查看MCTS算法有两种方法:
使用方式1:,.参考MCTS实现。有两种方式来描述此机制:
这正好证实了其他答案中的说法。我与MCT混淆了一段时间,特别是反向传播部分。 如果每个节点的获胜值(称为Q)用于指示当前节点的玩家的获胜次数。 在每个不可扩展节点中,我们选择最大的UCT节点。这怎么可能是一个好的选择呢? 考虑下面两个玩家的游戏,完整的树就是这样的:
A.
/ | \
B1 B2 B3
|
A1
在树B1中,B3是一个B赢终端节点,而B2只有一个选项可导致
a win终端节点A1
如果我们用MCTS方法计算游戏,结果将如下图所示:
所以A的最佳选择是B1或B3,这很荒谬,怎么解释呢
ref:对于输赢终端情况,您应该使用int.max score或int.lowest score,这样当您回溯输赢时,无论您在树中的位置有多低,都会得到尽可能低的分数,而赢将是最高分,这是有意义的,也是我理解如何工作的。那么,我的问题是,如何理解Browne等人在论文中指出的BackupNegamax伪代码函数。这是一篇经典论文,所以我不认为它是错的——也许只是一个不同的公式?布朗的课堂笔记,第页。12关于反向传播,也建议在每层否定值。@BobSmith确切地说,这没有错,这只是一个不同的公式。java示例链接没有问题。我也对这个想法感到困惑。