Reinforcement learning 在包含n个二进制操作的操作空间中,如何训练RL代理?

Reinforcement learning 在包含n个二进制操作的操作空间中,如何训练RL代理?,reinforcement-learning,q-learning,Reinforcement Learning,Q Learning,我需要训练一个RL代理,它必须控制一些开关。让我们想象一下,我们有n个开关,可以打开(1)或关闭(0)。我的代理必须在每一步中决定其中一个的撕裂和旋转,所以我希望动作如下:[1,0,1,….1]-由n个二进制元素组成的向量 我怎样才能培训一名特工?除了DQN之外,还可以将给定的动作空间转换为可能有2^n个动作的离散动作空间?DQN还可以支持矢量化的动作空间,如果这是您所要求的。请参阅TF代理,了解已经实现的框架。DQN还可以支持向量化的操作空间,如果您需要的话。参见TF Agents,了解已经实

我需要训练一个RL代理,它必须控制一些开关。让我们想象一下,我们有n个开关,可以打开(1)或关闭(0)。我的代理必须在每一步中决定其中一个的撕裂和旋转,所以我希望动作如下:[1,0,1,….1]-由n个二进制元素组成的向量


我怎样才能培训一名特工?除了DQN之外,还可以将给定的动作空间转换为可能有2^n个动作的离散动作空间?

DQN还可以支持矢量化的动作空间,如果这是您所要求的。请参阅TF代理,了解已经实现的框架。

DQN还可以支持向量化的操作空间,如果您需要的话。参见TF Agents,了解已经实现的框架。

可能是提出强化学习相关理论问题的更好地方,因此我建议您在那里提问。如果你在那里问它,请从这里删除它(以避免交叉张贴,这通常是不鼓励的)。可能是一个更好的地方,可以提出与强化学习相关的理论问题,所以我建议你在那里提问。如果你在那里问它,请从这里删除它(以避免交叉张贴,这通常是不鼓励的)。