Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 深度强化学习与多重学习;“持续行动”;_Python 3.x_Reinforcement Learning_Openai Gym - Fatal编程技术网

Python 3.x 深度强化学习与多重学习;“持续行动”;

Python 3.x 深度强化学习与多重学习;“持续行动”;,python-3.x,reinforcement-learning,openai-gym,Python 3.x,Reinforcement Learning,Openai Gym,下面是一个高级图表,显示了我的代理应该是什么样子,以便能够与我定制的健身房环境交互 国家和行动 环境有三种状态[s1、s2、s3]和六种动作[a1、a2、a3、a4、a5、a6] 状态和操作可以是0到1之间的任何值 问题: 哪些算法适合我的问题?我知道有一些算法擅长处理连续动作空间,比如(DDPG、PPO等),但我看不出它们在每个时间步输出多个动作时会如何运行。 最后,是否有任何健身房环境具有所述属性(多个动作)以及是否有任何python实现来解决这些特定环境?正如您在问题中提到的,PPO、D

下面是一个高级图表,显示了我的代理应该是什么样子,以便能够与我定制的健身房环境交互

国家和行动 环境有三种状态[s1、s2、s3]和六种动作[a1、a2、a3、a4、a5、a6] 状态和操作可以是0到1之间的任何值

问题: 哪些算法适合我的问题?我知道有一些算法擅长处理连续动作空间,比如(DDPG、PPO等),但我看不出它们在每个时间步输出多个动作时会如何运行。
最后,是否有任何健身房环境具有所述属性(多个动作)以及是否有任何python实现来解决这些特定环境?

正如您在问题中提到的,PPO、DDPG、TRPO、SAC等确实适合处理强化学习问题的连续动作空间。 这些算法将给出一个大小等于动作维度的向量,该向量中的每个元素都是实数,而不是离散值。请注意,像PPO这样的随机算法将给出一个多元概率分布,从中可以对动作进行采样

、等中的大多数机器人环境都是具有多个连续动作空间的环境。这里动作空间的形式可以是
[关节1的扭矩,关节2的扭矩,…,关节n的扭矩]
其中关节i的扭矩可以是一个实数,由关节移动多少决定


关于解决这些环境的实现,robosuite确实提供了使用不同算法对环境进行基准测试的示例解决方案。您也可以查找或选择一个标准RL库。

感谢您的澄清!我还有一个问题,动作输出向量中的每个动作都应该在[0和1]之间,这意味着六个动作的最大和将等于6(即,如果所有动作都等于1)。如何确保每个操作确实在0和1之间有界。我知道有使用softmax激活函数的多类分类,但这不是我想要的,因为这会将所有操作的总和限制在0和1之间,而不是将每个操作单独限制。谢谢,这是否意味着所有的行为都是相互依赖的?不,它们不是相互依赖的。事实上,它们的工作原理好像每个动作都来自一个单独的回归器(但值介于0和1之间),您可以在最后一层中使用sigmoid或移位tanh非线性来获得[0,1]范围内的输出。非常感谢您的帮助!