Artificial intelligence 如何处理Monte Carlo树搜索中的终端节点?

Artificial intelligence 如何处理Monte Carlo树搜索中的终端节点?,artificial-intelligence,montecarlo,Artificial Intelligence,Montecarlo,当我的树变得足够深以至于开始选择终端节点时,我会假设我应该从树中执行零移动“播放”并反向传播结果,但结果表明选择步骤应该是查找“最紧急的可扩展节点”,我在其他地方找不到任何反例。我是不是应该把他们排除在外?在这里正确的做法是什么?如果您在选择阶段实际到达一个终端节点,您可能会跳过扩展并播放(它们不再有意义),然后直接反向传播该终端节点的值 从你链接的论文来看,这在第6页是不清楚的,但在第9页的算法2中是清楚的。在该伪代码中,TreePolicy()函数将返回一个终端节点v。然后将此节点的状态传递

当我的树变得足够深以至于开始选择终端节点时,我会假设我应该从树中执行零移动“播放”并反向传播结果,但结果表明选择步骤应该是查找“最紧急的可扩展节点”,我在其他地方找不到任何反例。我是不是应该把他们排除在外?在这里正确的做法是什么?

如果您在选择阶段实际到达一个终端节点,您可能会跳过扩展并播放(它们不再有意义),然后直接反向传播该终端节点的值

从你链接的论文来看,这在第6页是不清楚的,但在第9页的算法2中是清楚的。在该伪代码中,
TreePolicy()
函数将返回一个终端节点v。然后将此节点的状态传递到
DefaultPolicy()
函数时,该函数将直接返回奖励(该函数的while循环的条件永远不会满足)


如果您对算法有很好的直观理解,并且希望它能够在无限长的处理时间内保证对值的最佳估计,那么这也是有意义的。由于处理时间无限长(模拟次数无限),您需要无限频繁地备份“最佳”终端状态的值,因此,距离根节点较近的节点中备份的平均值也会收敛到限制内的最佳叶节点值。

如果您在选择阶段实际到达一个终端节点,您可能会跳过扩展并播放(它们不再有意义),然后直接反向传播该终端节点的值

从你链接的论文来看,这在第6页是不清楚的,但在第9页的算法2中是清楚的。在该伪代码中,
TreePolicy()
函数将返回一个终端节点v。然后将此节点的状态传递到
DefaultPolicy()
函数时,该函数将直接返回奖励(该函数的while循环的条件永远不会满足)

如果您对算法有很好的直观理解,并且希望它能够在无限长的处理时间内保证对值的最佳估计,那么这也是有意义的。在处理时间无限长(模拟次数无限)的情况下,您需要无限频繁地备份来自“最佳”终端状态的值,以便在距离根节点较近的节点中备份的平均值也收敛到限制内的那些最佳叶节点值