Machine learning 通过强化学习,我应该将哪些内容保存到文件/db中?

Machine learning 通过强化学习,我应该将哪些内容保存到文件/db中?,machine-learning,artificial-intelligence,reinforcement-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,我试图进入机器学习领域,并决定自己尝试一下。我写了一个小的井字游戏。到目前为止,计算机使用随机移动来对抗自己 现在,我想通过编写一个代理程序来应用强化学习,该代理程序将根据其对董事会当前状态的了解进行探索或利用 我不明白的是: 代理使用什么来训练自己以适应当前状态?假设RNG机器人(o)播放器执行以下操作: […][…][…] […][x][o] […][…][…] 现在,经纪人必须决定最好的行动应该是什么。训练有素的人会选择第一、第三、第七或第九。在DB中是否也有类似的状态导致他获胜?因为如果

我试图进入机器学习领域,并决定自己尝试一下。我写了一个小的井字游戏。到目前为止,计算机使用随机移动来对抗自己

现在,我想通过编写一个代理程序来应用强化学习,该代理程序将根据其对董事会当前状态的了解进行探索或利用

我不明白的是: 代理使用什么来训练自己以适应当前状态?假设RNG机器人(o)播放器执行以下操作:

[…][…][…]

[…][x][o]

[…][…][…]

现在,经纪人必须决定最好的行动应该是什么。训练有素的人会选择第一、第三、第七或第九。在DB中是否也有类似的状态导致他获胜?因为如果是这样的话,我想我需要将每一步都保存到DB中,直到它的最终状态(赢/输/平局状态),而这对于一场比赛来说将是相当多的数据


如果我的想法是错误的,我想知道如何正确理解。

学习

1) 观察当前板状态s

2) 根据下一步所有可用V(s')的分布进行下一步。严格地说,选择通常基于玻尔兹曼的V(s')分布,但可以简化为最大值移动(贪婪),或者,以某种概率ε,您正在使用的随机移动

3) 按顺序记录s′

4) 如果游戏结束,它将更新序列中访问状态的值并重新开始;否则,请转到1)

玩游戏

1) 观察当前板状态s

2) 根据下一步所有可用V(s')的分布进行下一步

3) 直到游戏结束,重新开始;否则,请转到1)

关于你的问题,是的,游戏阶段的查找表是在学习阶段建立的。每次从所有V中选择状态时,最大可能数为3^9=19683。这是一个在训练中跑10000场比赛的人