Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/shell/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Deep learning 如何向ai教授游戏规则?_Deep Learning_Reinforcement Learning_Q Learning - Fatal编程技术网

Deep learning 如何向ai教授游戏规则?

Deep learning 如何向ai教授游戏规则?,deep-learning,reinforcement-learning,q-learning,Deep Learning,Reinforcement Learning,Q Learning,我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。 每当AI违反规则时,我就尝试给予负奖励。但看起来AI并没有学会规则。 我认为教学规则只是浪费时间。 请与我分享您的想法。您可以做的是,当您处于“s”状态时,例如,您有8个可能的操作(因此您的网络有8个输出),但操作1 2 3不可执行,您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失 对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个

我正在使用DQN制作类似alpha的人工智能。但我在教游戏规则方面遇到了麻烦。 AI不知道第一次“不得将石头放在已被占用的地方”的规则。 每当AI违反规则时,我就尝试给予负奖励。但看起来AI并没有学会规则。 我认为教学规则只是浪费时间。
请与我分享您的想法。

您可以做的是,当您处于“s”状态时,例如,您有8个可能的操作(因此您的网络有8个输出),但操作1 2 3不可执行,您可以通过手动将“s”状态下所有无效操作的目标Q值设置为0来最小化损失


对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0。

您可以做的是,当您处于“s”状态时,例如,您有8个可能的动作(因此网络有8个输出)但是操作1 2 3不可执行。您可以将状态“s”中所有无效操作的目标Q值手动设置为0,从而将损失降至最低

对于训练步骤,当对应于最大Q值的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0