Python Q矩阵维度在开放式Q学习环境中应该是什么_Python_Deep Learning_Reinforcement Learning_Q Learning_Openai Gym

Python Q矩阵维度在开放式Q学习环境中应该是什么

python deep-learning

Python Q矩阵维度在开放式Q学习环境中应该是什么,python,deep-learning,reinforcement-learning,q-learning,openai-gym,Python,Deep Learning,Reinforcement Learning,Q Learning,Openai Gym,我想在OpenAI的Biped Walker v2中实现Q-learning，但在寻找教程之后，它们似乎总是有限的环境，这使得Q矩阵和奖励矩阵易于初始化 e、 g: 我唯一的问题是，在我想要使用的更开放的环境中，这些矩阵的维度应该是什么有关环境：观察结果（注意有些值可能是无限的）：将Q值存储在矩阵（或表格）中的强化学习方法称为表格RL方法。这些是最直接/简单的方法，但正如您所发现的，并不总是容易适用的你可以尝试的一个解决方案是离散化你的状态空间，创建大量的“垃圾箱”。例如，hull_角度观

我想在OpenAI的Biped Walker v2中实现Q-learning，但在寻找教程之后，它们似乎总是有限的环境，这使得Q矩阵和奖励矩阵易于初始化

e、 g:

我唯一的问题是，在我想要使用的更开放的环境中，这些矩阵的维度应该是什么

有关环境：

观察结果（注意有些值可能是无限的）：

将Q值存储在矩阵（或表格）中的强化学习方法称为表格RL方法。这些是最直接/简单的方法，但正如您所发现的，并不总是容易适用的

你可以尝试的一个解决方案是离散化你的状态空间，创建大量的“垃圾箱”。例如，

hull_角度

观测范围可以从

到

2*pi

。例如，您可以映射

0 我再查了一下，是的，函数近似是一个很好的方法。从我所看到的，你几乎只是做梯度下降，以奖励作为输出标签，同时输入3或4帧，每次只训练一个历元。我现在的问题是，你怎么能用这个来预测比下一个状态更多的东西呢？我们是不是用另一个神经网络来近似这个状态，然后在这个生成的状态上使用奖励近似器来求解贝尔曼方程呢？@Tissuebox No，那将是另一类名为“基于模型的RL”“”“。即使使用函数近似，标准方法仍然是尝试学习真正预测Q
-值的Q
-函数（例如，训练信号不仅仅是一步奖励，而是一步奖励加上gamma
乘以您在下一个状态中学习的函数预测的Q
-值。与表格RL中的更新规则完全相同。您也可以将表格RL中的Q
-表作为“函数逼近器”，完美区分所有状态