Deep learning 如何向ai教授游戏规则?
我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。 每当AI违反规则时,我就尝试给予负奖励。但看起来AI并没有学会规则。 我认为教学规则只是浪费时间。Deep learning 如何向ai教授游戏规则?,deep-learning,reinforcement-learning,q-learning,Deep Learning,Reinforcement Learning,Q Learning,我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。 每当AI违反规则时,我就尝试给予负奖励。但看起来AI并没有学会规则。 我认为教学规则只是浪费时间。 请与我分享您的想法。您可以做的是,当您处于“s”状态时,例如,您有8个可能的操作(因此您的网络有8个输出),但操作1 2 3不可执行,您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失 对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个
请与我分享您的想法。您可以做的是,当您处于“s”状态时,例如,您有8个可能的操作(因此您的网络有8个输出),但操作1 2 3不可执行,您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失
对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0。您可以做的是,当您处于“s”状态时,例如,您有8个可能的动作(因此网络有8个输出)但是操作1 2 3不可执行。您可以将状态“s”中所有无效操作的目标Q值手动设置为0,从而将损失降至最低 对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0