Machine learning 通过强化学习，我应该将哪些内容保存到文件/db中？_Machine Learning_Artificial Intelligence_Reinforcement Learning

Machine learning 通过强化学习，我应该将哪些内容保存到文件/db中？

machine-learning artificial-intelligence

Machine learning 通过强化学习，我应该将哪些内容保存到文件/db中？,machine-learning,artificial-intelligence,reinforcement-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,我试图进入机器学习领域，并决定自己尝试一下。我写了一个小的井字游戏。到目前为止，计算机使用随机移动来对抗自己现在，我想通过编写一个代理程序来应用强化学习，该代理程序将根据其对董事会当前状态的了解进行探索或利用我不明白的是：代理使用什么来训练自己以适应当前状态？假设RNG机器人（o）播放器执行以下操作： […][…][…] […][x][o] […][…][…] 现在，经纪人必须决定最好的行动应该是什么。训练有素的人会选择第一、第三、第七或第九。在DB中是否也有类似的状态导致他获胜？因为如果

我试图进入机器学习领域，并决定自己尝试一下。我写了一个小的井字游戏。到目前为止，计算机使用随机移动来对抗自己

现在，我想通过编写一个代理程序来应用强化学习，该代理程序将根据其对董事会当前状态的了解进行探索或利用

我不明白的是：代理使用什么来训练自己以适应当前状态？假设RNG机器人（o）播放器执行以下操作：

[…][…][…]

[…][x][o]

[…][…][…]

现在，经纪人必须决定最好的行动应该是什么。训练有素的人会选择第一、第三、第七或第九。在DB中是否也有类似的状态导致他获胜？因为如果是这样的话，我想我需要将每一步都保存到DB中，直到它的最终状态（赢/输/平局状态），而这对于一场比赛来说将是相当多的数据

如果我的想法是错误的，我想知道如何正确理解。

学习

1）观察当前板状态s

2）根据下一步所有可用V（s'）的分布进行下一步。严格地说，选择通常基于玻尔兹曼的V（s'）分布，但可以简化为最大值移动（贪婪），或者，以某种概率ε，您正在使用的随机移动

3）按顺序记录s′

4）如果游戏结束，它将更新序列中访问状态的值并重新开始；否则，请转到1）

玩游戏

1）观察当前板状态s

2）根据下一步所有可用V（s'）的分布进行下一步

3）直到游戏结束，重新开始；否则，请转到1）

关于你的问题，是的，游戏阶段的查找表是在学习阶段建立的。每次从所有V中选择状态时，最大可能数为3^9=19683。这是一个在训练中跑10000场比赛的人