Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/350.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 实现1层、2层或3层搜索td gammon_Python_Tensorflow_Reinforcement Learning - Fatal编程技术网

Python 实现1层、2层或3层搜索td gammon

Python 实现1层、2层或3层搜索td gammon,python,tensorflow,reinforcement-learning,Python,Tensorflow,Reinforcement Learning,我读过一些文章,其中大多数都说3-ply提高了自播放器训练的性能。 但实际上这是什么呢?这是如何实现的 由于掷骰子,游戏中存在随机性,因此一种方法是通过自玩RL评估状态位置,然后在玩游戏时对所有可能的骰子组合进行2层搜索。这将是36+6,即42个可能的掷骰,然后你必须做出不同的动作,这将使树的呼吸增加到疯狂的程度。我尝试了这个,但失败了,因为我的Mac电脑无法处理这样的计算。相反,我们所能做的只是随机化几个骰子,并使用Alpha-Beta修剪(使用AfterState值函数)执行MiniMax树

我读过一些文章,其中大多数都说3-ply提高了自播放器训练的性能。
但实际上这是什么呢?这是如何实现的

由于掷骰子,游戏中存在随机性,因此一种方法是通过自玩RL评估状态位置,然后在玩游戏时对所有可能的骰子组合进行2层搜索。这将是36+6,即42个可能的掷骰,然后你必须做出不同的动作,这将使树的呼吸增加到疯狂的程度。我尝试了这个,但失败了,因为我的Mac电脑无法处理这样的计算。相反,我们所能做的只是随机化几个骰子,并使用Alpha-Beta修剪(使用AfterState值函数)执行MiniMax树搜索


对于1层搜索,我们只使用滚动骰子,或者如果我们想在滚动骰子之前预测值,那么我们可以简单地循环所有可能的组合。然后我们就在余数状态上加argmax。

由于掷骰子的原因,游戏中存在随机性,因此一种方法是通过自玩RL评估状态位置,然后在玩游戏时对所有可能的骰子组合进行两层搜索。这将是36+6,即42个可能的掷骰,然后你必须做出不同的动作,这将使树的呼吸增加到疯狂的程度。我尝试了这个,但失败了,因为我的Mac电脑无法处理这样的计算。相反,我们所能做的只是随机化几个骰子,并使用Alpha-Beta修剪(使用AfterState值函数)执行MiniMax树搜索

对于1层搜索,我们只使用滚动骰子,或者如果我们想在滚动骰子之前预测值,那么我们可以简单地循环所有可能的组合。然后我们就在余波上争论