Reinforcement learning 在包含n个二进制操作的操作空间中，如何训练RL代理？_Reinforcement Learning_Q Learning

Reinforcement learning 在包含n个二进制操作的操作空间中，如何训练RL代理？

Reinforcement learning 在包含n个二进制操作的操作空间中，如何训练RL代理？,reinforcement-learning,q-learning,Reinforcement Learning,Q Learning,我需要训练一个RL代理，它必须控制一些开关。让我们想象一下，我们有n个开关，可以打开（1）或关闭（0）。我的代理必须在每一步中决定其中一个的撕裂和旋转，所以我希望动作如下：[1,0,1，….1]-由n个二进制元素组成的向量我怎样才能培训一名特工？除了DQN之外，还可以将给定的动作空间转换为可能有2^n个动作的离散动作空间？DQN还可以支持矢量化的动作空间，如果这是您所要求的。请参阅TF代理，了解已经实现的框架。DQN还可以支持向量化的操作空间，如果您需要的话。参见TF Agents，了解已经实

我需要训练一个RL代理，它必须控制一些开关。让我们想象一下，我们有n个开关，可以打开（1）或关闭（0）。我的代理必须在每一步中决定其中一个的撕裂和旋转，所以我希望动作如下：[1,0,1，….1]-由n个二进制元素组成的向量

我怎样才能培训一名特工？除了DQN之外，还可以将给定的动作空间转换为可能有2^n个动作的离散动作空间？

DQN还可以支持矢量化的动作空间，如果这是您所要求的。请参阅TF代理，了解已经实现的框架。

DQN还可以支持向量化的操作空间，如果您需要的话。参见TF Agents，了解已经实现的框架。

可能是提出强化学习相关理论问题的更好地方，因此我建议您在那里提问。如果你在那里问它，请从这里删除它（以避免交叉张贴，这通常是不鼓励的）。可能是一个更好的地方，可以提出与强化学习相关的理论问题，所以我建议你在那里提问。如果你在那里问它，请从这里删除它（以避免交叉张贴，这通常是不鼓励的）。