Machine learning 随机梯度下降和Q-学习中的小批量 背景(可以跳过):

Machine learning 随机梯度下降和Q-学习中的小批量 背景(可以跳过):,machine-learning,neural-network,reinforcement-learning,q-learning,Machine Learning,Neural Network,Reinforcement Learning,Q Learning,在训练神经网络时,通常使用随机梯度下降法(SGD):不是计算训练集中所有成员的网络误差,而是通过梯度下降法更新权重(这意味着在每次权重更新之前等待很长时间),而是每次使用一小批成员,并将产生的误差视为真实误差的无偏估计 在强化学习中,有时Q-学习是通过神经网络实现的(如在深度Q-学习中),并使用经验回放:不是通过代理的前一个(状态、动作、奖励)更新权重,而是使用旧的(状态、动作、奖励)小批量随机样本进行更新,因此,后续更新之间没有相关性 问题是: 以下断言是否正确?:在SGD中进行小批量时,每个

在训练神经网络时,通常使用随机梯度下降法(SGD):不是计算训练集中所有成员的网络误差,而是通过梯度下降法更新权重(这意味着在每次权重更新之前等待很长时间),而是每次使用一小批成员,并将产生的误差视为真实误差的无偏估计

在强化学习中,有时Q-学习是通过神经网络实现的(如在深度Q-学习中),并使用经验回放:不是通过代理的前一个(状态、动作、奖励)更新权重,而是使用旧的(状态、动作、奖励)小批量随机样本进行更新,因此,后续更新之间没有相关性

问题是: 以下断言是否正确?:在SGD中进行小批量时,每个小批量执行一次权重更新,而在Q-learning中进行小批量时,每个小批量中的成员执行一次权重更新

还有一件事:
我认为这个问题更适合,因为它是一个关于机器学习的概念性问题,与编程无关,但通过查看Stackoverflow上标记的问题,我得出结论,在这里问这个问题是规范性的,而且我能得到的响应数量更大。

答案是否定的。可以使用小批量中的所有示例立即更新Q网络的参数。用(s1,a1,r1,s'1),(s2,a2,r2,s'2),。。。然后,根据当前Q网络估算损耗:

L=(Q(s1,a1)-(r1+max{Q(s'1,u)}))^2+(Q(s2,a2)-(r2+max{Q(s'2,u)}))^2+

这是对真实损失的估计,是对所有(s、a、r)的期望。这样,Q参数的更新类似于SGD

注:

  • 上面的表达式也可以包含折扣因子
  • 由于不包含表示因s'引起的方差的项,因此估计有偏差,但这不会改变梯度的方向
  • 有时,每个平方项中的第二个Q网络不是当前的Q,而是过去的Q(双Q学习)

或者查看网站?可能,但请比较此处与此处之间的问题、答案、视图和投票数:。