Python 3.x 深度强化学习与多重学习；“持续行动”；_Python 3.x_Reinforcement Learning_Openai Gym

Python 3.x 深度强化学习与多重学习；“持续行动”；

python-3.x

Python 3.x 深度强化学习与多重学习；“持续行动”；,python-3.x,reinforcement-learning,openai-gym,Python 3.x,Reinforcement Learning,Openai Gym,下面是一个高级图表，显示了我的代理应该是什么样子，以便能够与我定制的健身房环境交互国家和行动环境有三种状态[s1、s2、s3]和六种动作[a1、a2、a3、a4、a5、a6] 状态和操作可以是0到1之间的任何值问题: 哪些算法适合我的问题？我知道有一些算法擅长处理连续动作空间，比如（DDPG、PPO等），但我看不出它们在每个时间步输出多个动作时会如何运行。最后，是否有任何健身房环境具有所述属性（多个动作）以及是否有任何python实现来解决这些特定环境？正如您在问题中提到的，PPO、D

下面是一个高级图表，显示了我的代理应该是什么样子，以便能够与我定制的健身房环境交互

国家和行动环境有三种状态[s1、s2、s3]和六种动作[a1、a2、a3、a4、a5、a6] 状态和操作可以是0到1之间的任何值

问题: 哪些算法适合我的问题？我知道有一些算法擅长处理连续动作空间，比如（DDPG、PPO等），但我看不出它们在每个时间步输出多个动作时会如何运行。

最后，是否有任何健身房环境具有所述属性（多个动作）以及是否有任何python实现来解决这些特定环境？

正如您在问题中提到的，PPO、DDPG、TRPO、SAC等确实适合处理强化学习问题的连续动作空间。这些算法将给出一个大小等于动作维度的向量，该向量中的每个元素都是实数，而不是离散值。请注意，像PPO这样的随机算法将给出一个多元概率分布，从中可以对动作进行采样

、等中的大多数机器人环境都是具有多个连续动作空间的环境。这里动作空间的形式可以是

[关节1的扭矩，关节2的扭矩，…，关节n的扭矩]

其中关节i的扭矩可以是一个实数，由关节移动多少决定

关于解决这些环境的实现，robosuite确实提供了使用不同算法对环境进行基准测试的示例解决方案。您也可以查找或选择一个标准RL库。

感谢您的澄清！我还有一个问题，动作输出向量中的每个动作都应该在[0和1]之间，这意味着六个动作的最大和将等于6（即，如果所有动作都等于1）。如何确保每个操作确实在0和1之间有界。我知道有使用softmax激活函数的多类分类，但这不是我想要的，因为这会将所有操作的总和限制在0和1之间，而不是将每个操作单独限制。谢谢，这是否意味着所有的行为都是相互依赖的？不，它们不是相互依赖的。事实上，它们的工作原理好像每个动作都来自一个单独的回归器（但值介于0和1之间），您可以在最后一层中使用sigmoid或移位tanh非线性来获得[0,1]范围内的输出。非常感谢您的帮助！