Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/359.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Q矩阵维度在开放式Q学习环境中应该是什么_Python_Deep Learning_Reinforcement Learning_Q Learning_Openai Gym - Fatal编程技术网

Python Q矩阵维度在开放式Q学习环境中应该是什么

Python Q矩阵维度在开放式Q学习环境中应该是什么,python,deep-learning,reinforcement-learning,q-learning,openai-gym,Python,Deep Learning,Reinforcement Learning,Q Learning,Openai Gym,我想在OpenAI的Biped Walker v2中实现Q-learning,但在寻找教程之后,它们似乎总是有限的环境,这使得Q矩阵和奖励矩阵易于初始化 e、 g: 我唯一的问题是,在我想要使用的更开放的环境中,这些矩阵的维度应该是什么 有关环境: 观察结果(注意有些值可能是无限的):将Q值存储在矩阵(或表格)中的强化学习方法称为表格RL方法。这些是最直接/简单的方法,但正如您所发现的,并不总是容易适用的 你可以尝试的一个解决方案是离散化你的状态空间,创建大量的“垃圾箱”。例如,hull_角度观

我想在OpenAI的Biped Walker v2中实现Q-learning,但在寻找教程之后,它们似乎总是有限的环境,这使得Q矩阵和奖励矩阵易于初始化

e、 g:

我唯一的问题是,在我想要使用的更开放的环境中,这些矩阵的维度应该是什么

有关环境:


观察结果(注意有些值可能是无限的):

将Q值存储在矩阵(或表格)中的强化学习方法称为表格RL方法。这些是最直接/简单的方法,但正如您所发现的,并不总是容易适用的


你可以尝试的一个解决方案是离散化你的状态空间,创建大量的“垃圾箱”。例如,
hull_角度
观测范围可以从
0
2*pi
。例如,您可以映射
0 我再查了一下,是的,函数近似是一个很好的方法。从我所看到的,你几乎只是做梯度下降,以奖励作为输出标签,同时输入3或4帧,每次只训练一个历元。我现在的问题是,你怎么能用这个来预测比下一个状态更多的东西呢?我们是不是用另一个神经网络来近似这个状态,然后在这个生成的状态上使用奖励近似器来求解贝尔曼方程呢?@Tissuebox No,那将是另一类名为“基于模型的RL”“”“。即使使用函数近似,标准方法仍然是尝试学习真正预测
Q
-值的
Q
-函数(例如,训练信号不仅仅是一步奖励,而是一步奖励加上
gamma
乘以您在下一个状态中学习的函数预测的
Q
-值。与表格RL中的更新规则完全相同。您也可以将表格RL中的
Q
-表作为“函数逼近器”,完美区分所有状态