Deep learning 如何向ai教授游戏规则？_Deep Learning_Reinforcement Learning_Q Learning

Deep learning 如何向ai教授游戏规则？

deep-learning

Deep learning 如何向ai教授游戏规则？,deep-learning,reinforcement-learning,q-learning,Deep Learning,Reinforcement Learning,Q Learning,我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。每当AI违反规则时，我就尝试给予负奖励。但看起来AI并没有学会规则。我认为教学规则只是浪费时间。请与我分享您的想法。您可以做的是，当您处于“s”状态时，例如，您有8个可能的操作（因此您的网络有8个输出），但操作1 2 3不可执行，您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失对于训练步骤，当对应于最大Q值的动作无效时，只需选择一个

我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。每当AI违反规则时，我就尝试给予负奖励。但看起来AI并没有学会规则。我认为教学规则只是浪费时间。

请与我分享您的想法。

您可以做的是，当您处于“s”状态时，例如，您有8个可能的操作（因此您的网络有8个输出），但操作1 2 3不可执行，您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失

对于训练步骤，当对应于最大Q值的动作无效时，只需选择一个随机动作，不要忘记将该动作的目标Q值设置为0。

您可以做的是，当您处于“s”状态时，例如，您有8个可能的动作（因此网络有8个输出）但是操作1 2 3不可执行。您可以将状态“s”中所有无效操作的目标Q值手动设置为0，从而将损失降至最低

对于训练步骤，当对应于最大Q值的动作无效时，只需选择一个随机动作，不要忘记将该动作的目标Q值设置为0