Machine learning 机器学习:因为与特定的代理打交道而学习的特定策略?

Machine learning 机器学习:因为与特定的代理打交道而学习的特定策略?,machine-learning,artificial-intelligence,reinforcement-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,首先,我发现在制定问题时有困难,欢迎反馈 我必须做一个机器学习代理来玩点和框 我只是处于早期阶段,但我提出了一个问题:如果我让我的机器学习代理(有一个特定的实现)与它自己的副本进行游戏,以学习和改进它的游戏性,它不只是针对这种特定的游戏性制定一个策略吗 如果我让我的代理以任意方式与其他代理的不同形式进行游戏和学习,会更有趣吗?让代理通过与自身副本进行游戏来学习的想法被称为自我游戏。是的,在自娱自乐中,你有时可以看到代理会“过度适应”他们的“训练伙伴”,导致不稳定的学习过程。请参阅(特别是“多人游

首先,我发现在制定问题时有困难,欢迎反馈

我必须做一个机器学习代理来玩点和框

我只是处于早期阶段,但我提出了一个问题:如果我让我的机器学习代理(有一个特定的实现)与它自己的副本进行游戏,以学习和改进它的游戏性,它不只是针对这种特定的游戏性制定一个策略吗


如果我让我的代理以任意方式与其他代理的不同形式进行游戏和学习,会更有趣吗?

让代理通过与自身副本进行游戏来学习的想法被称为自我游戏。是的,在自娱自乐中,你有时可以看到代理会“过度适应”他们的“训练伙伴”,导致不稳定的学习过程。请参阅(特别是“多人游戏”一节),其中详细描述了此问题


到目前为止,我在研究中看到的解决这一问题的最简单方法确实是建立一套更加多样化的培训合作伙伴。例如,可以通过将代理的多个过去版本的检查点存储在内存/文件中,并在每集开始时随机选择其中一个作为培训伙伴来完成。这大致是DeepMind在最初的AlphaGo计划(2016版)的自我培训过程中所做的,也在中进行了描述。

感谢您的回复,这对我很有帮助@用户6078387,如果有用,请接受答案。您可以在此处找到有关如何执行此操作以及为什么重要的更多信息: