Deep learning 使用DQN训练多个级别的游戏的规则是什么？_Deep Learning_Reinforcement Learning

Deep learning 使用DQN训练多个级别的游戏的规则是什么？

deep-learning

Deep learning 使用DQN训练多个级别的游戏的规则是什么？,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我正在尝试为各种游戏创建基准，每个游戏有5个级别。目标是首先训练模型在3个级别上收敛，然后测量剩余2个级别上的学习曲线对于如何在多个层次上培训模型，是否有一个一般规则？培训是否应该一级一级地进行非常感谢您的帮助。假设您能够在可能的时间限制内总共进行N个级别的培训我不建议使用以下设置：在一级列车上进行N/3次在第二层列车N/3次在第二层列车N/3次这种设置的风险在于，你首先要学会在第一个关卡上打得好，然后忘记所学的一切，过度适应第二个关卡，然后再次忘记，过度适应第三个关卡您需要确保

我正在尝试为各种游戏创建基准，每个游戏有5个级别。目标是首先训练模型在3个级别上收敛，然后测量剩余2个级别上的学习曲线

对于如何在多个层次上培训模型，是否有一个一般规则？培训是否应该一级一级地进行

非常感谢您的帮助。

假设您能够在可能的时间限制内总共进行N个级别的培训

我不建议使用以下设置：

在一级列车上进行N/3次在第二层列车N/3次在第二层列车N/3次这种设置的风险在于，你首先要学会在第一个关卡上打得好，然后忘记所学的一切，过度适应第二个关卡，然后再次忘记，过度适应第三个关卡

您需要确保在整个培训过程中始终保持良好的级别组合，因为最终的目标是在看不见的级别4和级别5上推广和表现良好

为此，我推荐以下设置之一：

在第一层训练一次在第二层训练一次在第三层训练一次再次重复第一步，直到训练最多N次或者：

随机选择前三个级别中的一个进行培训。重复训练N次。使用更复杂的策略可能会做得更好。例如，您可以尝试跟踪您在过去X次玩某个关卡期间每个关卡的平均表现，并对您表现不佳的关卡进行优先级排序，因为显然您在这些关卡中还有很多东西需要学习。例如，这可以通过使用多武装匪徒策略（如UCB1）来实现，在UCB1中，您可以使用最近的负面表现作为奖励

这也可能是值得研究的学习轨迹的一般视频游戏人工智能的竞争。我相信比赛正是你提到的三个训练级别加上每场比赛两个级别的评估，也许这就是你的问题的来源？。您可以查看本次比赛的各个参赛者在源代码可用的情况下正在做什么，和/或查找有关比赛/参赛作品的文献