Neural network AlphaGo零点板评估功能使用多个时间步作为输入。。。为什么?

Neural network AlphaGo零点板评估功能使用多个时间步作为输入。。。为什么?,neural-network,deep-learning,artificial-intelligence,torch,reinforcement-learning,Neural Network,Deep Learning,Artificial Intelligence,Torch,Reinforcement Learning,根据,AlphaGo Zero使用一系列连续的棋盘配置对其游戏状态进行编码 理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置 他们为什么选择注入这么多复杂性 他们在听什么 唯一的原因是因为在所有游戏中——围棋、国际象棋和围棋——都有重复规则。这意味着从当前的棋盘位置看不到游戏。换言之,可能有两个相同的位置,有两个非常不同的评估。例如,在一个围棋姿势中可能有一个获胜的动作,但在相同的围棋姿势中,该动作要么是非法的,要么在将获胜的连续动作中的下几个动作之一会创建一个非法的姿势 您

根据,AlphaGo Zero使用一系列连续的棋盘配置对其游戏状态进行编码

理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置

他们为什么选择注入这么多复杂性

他们在听什么


唯一的原因是因为在所有游戏中——围棋、国际象棋和围棋——都有重复规则。这意味着从当前的棋盘位置看不到游戏。换言之,可能有两个相同的位置,有两个非常不同的评估。例如,在一个围棋姿势中可能有一个获胜的动作,但在相同的围棋姿势中,该动作要么是非法的,要么在将获胜的连续动作中的下几个动作之一会创建一个非法的姿势


您可以尝试仅在当前板位置馈电,并仅在树中处理重复。但我认为这会更弱,因为在某些情况下,评估函数可能是错误的,如果没有对树的分支进行足够深入的探索来纠正问题,就会产生地平线效应。

“这意味着从当前棋盘位置看不到游戏的完整性。”你能详细说明一下吗?这似乎不是真的。顺便说一句,谢谢你的回答。我会让这个问题暂时搁置一下,看看我还能得到什么。伊姆兰讲述了整个故事。对于围棋,重复规则是Ko:如果你看到一个围棋的位置有一个Ko,你就无法确定是否可以合法地接球,如果你知道最后几步,你就可以这样做。国际象棋和shogi中的三重重复规则也是如此