Python 实现1层、2层或3层搜索td gammon_Python_Tensorflow_Reinforcement Learning

Python 实现1层、2层或3层搜索td gammon

python tensorflow

Python 实现1层、2层或3层搜索td gammon,python,tensorflow,reinforcement-learning,Python,Tensorflow,Reinforcement Learning,我读过一些文章，其中大多数都说3-ply提高了自播放器训练的性能。但实际上这是什么呢？这是如何实现的由于掷骰子，游戏中存在随机性，因此一种方法是通过自玩RL评估状态位置，然后在玩游戏时对所有可能的骰子组合进行2层搜索。这将是36+6，即42个可能的掷骰，然后你必须做出不同的动作，这将使树的呼吸增加到疯狂的程度。我尝试了这个，但失败了，因为我的Mac电脑无法处理这样的计算。相反，我们所能做的只是随机化几个骰子，并使用Alpha-Beta修剪（使用AfterState值函数）执行MiniMax树

我读过一些文章，其中大多数都说3-ply提高了自播放器训练的性能。

但实际上这是什么呢？这是如何实现的

由于掷骰子，游戏中存在随机性，因此一种方法是通过自玩RL评估状态位置，然后在玩游戏时对所有可能的骰子组合进行2层搜索。这将是36+6，即42个可能的掷骰，然后你必须做出不同的动作，这将使树的呼吸增加到疯狂的程度。我尝试了这个，但失败了，因为我的Mac电脑无法处理这样的计算。相反，我们所能做的只是随机化几个骰子，并使用Alpha-Beta修剪（使用AfterState值函数）执行MiniMax树搜索

对于1层搜索，我们只使用滚动骰子，或者如果我们想在滚动骰子之前预测值，那么我们可以简单地循环所有可能的组合。然后我们就在余数状态上加argmax。

由于掷骰子的原因，游戏中存在随机性，因此一种方法是通过自玩RL评估状态位置，然后在玩游戏时对所有可能的骰子组合进行两层搜索。这将是36+6，即42个可能的掷骰，然后你必须做出不同的动作，这将使树的呼吸增加到疯狂的程度。我尝试了这个，但失败了，因为我的Mac电脑无法处理这样的计算。相反，我们所能做的只是随机化几个骰子，并使用Alpha-Beta修剪（使用AfterState值函数）执行MiniMax树搜索

对于1层搜索，我们只使用滚动骰子，或者如果我们想在滚动骰子之前预测值，那么我们可以简单地循环所有可能的组合。然后我们就在余波上争论