Python 如何估计每集的平均Q值？_Python_Deep Learning_Reinforcement Learning_Openai Gym

Python 如何估计每集的平均Q值？

python deep-learning

Python 如何估计每集的平均Q值？,python,deep-learning,reinforcement-learning,openai-gym,Python,Deep Learning,Reinforcement Learning,Openai Gym,我正在研究DQN算法的几种变体，我想比较它们的学习效率。我在一些github存储库中看到了几张显示每集平均Q值的图表。我很困惑，因为神经网络给了我游戏中每一步每一个动作的Q值。如何计算绘制在“每集平均Q值”图中的值？一种方法是跟踪每一动作的Q值和每集所采取的步骤数。要获得每集的平均Q值，只需将每一步的Q值相加，然后除以该集的步数。或者更正式地说：其中，N是步骤总数，Q_i是步骤i的Q值也就是说，我觉得有点奇怪，你会跟踪Q值，因为通常每个状态/动作对都有一些与之相关的Q值，所以我在这里的建议

我正在研究DQN算法的几种变体，我想比较它们的学习效率。我在一些github存储库中看到了几张显示每集平均Q值的图表。我很困惑，因为神经网络给了我游戏中每一步每一个动作的Q值。如何计算绘制在“每集平均Q值”图中的值？

一种方法是跟踪每一动作的Q值和每集所采取的步骤数。要获得每集的平均Q值，只需将每一步的Q值相加，然后除以该集的步数。或者更正式地说：

其中，

是步骤总数，

Q_i

是步骤

的Q值

也就是说，我觉得有点奇怪，你会跟踪Q值，因为通常每个状态/动作对都有一些与之相关的Q值，所以我在这里的建议没有太大的帮助。也许你指的是一般的“奖励”