Python 如何估计每集的平均Q值?

Python 如何估计每集的平均Q值?,python,deep-learning,reinforcement-learning,openai-gym,Python,Deep Learning,Reinforcement Learning,Openai Gym,我正在研究DQN算法的几种变体,我想比较它们的学习效率。我在一些github存储库中看到了几张显示每集平均Q值的图表。我很困惑,因为神经网络给了我游戏中每一步每一个动作的Q值。如何计算绘制在“每集平均Q值”图中的值?一种方法是跟踪每一动作的Q值和每集所采取的步骤数。要获得每集的平均Q值,只需将每一步的Q值相加,然后除以该集的步数。或者更正式地说: 其中,N是步骤总数,Q_i是步骤i的Q值 也就是说,我觉得有点奇怪,你会跟踪Q值,因为通常每个状态/动作对都有一些与之相关的Q值,所以我在这里的建议

我正在研究DQN算法的几种变体,我想比较它们的学习效率。我在一些github存储库中看到了几张显示每集平均Q值的图表。我很困惑,因为神经网络给了我游戏中每一步每一个动作的Q值。如何计算绘制在“每集平均Q值”图中的值?

一种方法是跟踪每一动作的Q值和每集所采取的步骤数。要获得每集的平均Q值,只需将每一步的Q值相加,然后除以该集的步数。或者更正式地说:

其中,
N
是步骤总数,
Q_i
是步骤
i
的Q值

也就是说,我觉得有点奇怪,你会跟踪Q值,因为通常每个状态/动作对都有一些与之相关的Q值,所以我在这里的建议没有太大的帮助。也许你指的是一般的“奖励”