Neural network 为什么AlphaGo Zero使用二面体旋转而不是标准化?

Neural network 为什么AlphaGo Zero使用二面体旋转而不是标准化?,neural-network,numbers,Neural Network,Numbers,其中提到,为了保证游戏的对称性(动作值独立于棋盘的旋转和反射),使用随机二面体反射或旋转将生成的状态送入网络: 展开并评估(图2b)。将叶节点sL添加到用于神经网络评估的队列中,(di(p),v)=fθ(di(sL)),其中di是从[1..8]中的i中均匀随机选择的二面体反射或旋转 我想知道:每个棋盘都可以用一个长数字来表示。为什么不采用每个旋转和反射的数字形式,比较它们并选择较小的?(每次网络评估电路板时) 我认为这将导致更快的学习,因为网络可以只关注所有可能状态的1/8 一种可能的解释是,如

其中提到,为了保证游戏的对称性(动作值独立于棋盘的旋转和反射),使用随机二面体反射或旋转将生成的状态送入网络:

展开并评估(图2b)。将叶节点sL添加到用于神经网络评估的队列中,(di(p),v)=fθ(di(sL)),其中di是从[1..8]中的i中均匀随机选择的二面体反射或旋转

我想知道:每个棋盘都可以用一个长数字来表示。为什么不采用每个旋转和反射的数字形式,比较它们并选择较小的?(每次网络评估电路板时)


我认为这将导致更快的学习,因为网络可以只关注所有可能状态的1/8

一种可能的解释是,如果网络的相对边和角对称收敛,他们会感兴趣,因此他们可能会使用这种方法来测试方法本身

另一个假设原因与“连续性”有关。如果移动一块石头可能会使位置不再正确定向,因此您必须翻转它,那么您从初始位置获得的值和策略数据突然对视觉上接近但数字翻转的位置没有任何培训好处

最终,虽然网络培训不是管道的瓶颈,但自我游戏生成是瓶颈。将生成的位置乘以几次旋转可能会让人觉得在该点上是自由数据

不过,他们确实完全消除了AlphaZero中的对称变换。再一次,我假设它是为了测试,而不是优化(至少在围棋中是这样。国际象棋和Shogi显然是不对称的)