Machine learning 随机梯度下降和Q-学习中的小批量背景（可以跳过）：_Machine Learning_Neural Network_Reinforcement Learning_Q Learning

Machine learning 随机梯度下降和Q-学习中的小批量背景（可以跳过）：

machine-learning neural-network

Machine learning 随机梯度下降和Q-学习中的小批量背景（可以跳过）：,machine-learning,neural-network,reinforcement-learning,q-learning,Machine Learning,Neural Network,Reinforcement Learning,Q Learning,在训练神经网络时，通常使用随机梯度下降法（SGD）：不是计算训练集中所有成员的网络误差，而是通过梯度下降法更新权重（这意味着在每次权重更新之前等待很长时间），而是每次使用一小批成员，并将产生的误差视为真实误差的无偏估计在强化学习中，有时Q-学习是通过神经网络实现的（如在深度Q-学习中），并使用经验回放：不是通过代理的前一个（状态、动作、奖励）更新权重，而是使用旧的（状态、动作、奖励）小批量随机样本进行更新，因此，后续更新之间没有相关性问题是：以下断言是否正确？：在SGD中进行小批量时，每个

在训练神经网络时，通常使用随机梯度下降法（SGD）：不是计算训练集中所有成员的网络误差，而是通过梯度下降法更新权重（这意味着在每次权重更新之前等待很长时间），而是每次使用一小批成员，并将产生的误差视为真实误差的无偏估计

在强化学习中，有时Q-学习是通过神经网络实现的（如在深度Q-学习中），并使用经验回放：不是通过代理的前一个（状态、动作、奖励）更新权重，而是使用旧的（状态、动作、奖励）小批量随机样本进行更新，因此，后续更新之间没有相关性

问题是：以下断言是否正确？：在SGD中进行小批量时，每个小批量执行一次权重更新，而在Q-learning中进行小批量时，每个小批量中的成员执行一次权重更新

还有一件事：

我认为这个问题更适合，因为它是一个关于机器学习的概念性问题，与编程无关，但通过查看Stackoverflow上标记的问题，我得出结论，在这里问这个问题是规范性的，而且我能得到的响应数量更大。

答案是否定的。可以使用小批量中的所有示例立即更新Q网络的参数。用（s1，a1，r1，s'1），（s2，a2，r2，s'2），。。。然后，根据当前Q网络估算损耗：

L=（Q（s1，a1）-（r1+max{Q（s'1，u）}））^2+（Q（s2，a2）-（r2+max{Q（s'2，u）}））^2+

这是对真实损失的估计，是对所有（s、a、r）的期望。这样，Q参数的更新类似于SGD

注:

上面的表达式也可以包含折扣因子
由于不包含表示因s'引起的方差的项，因此估计有偏差，但这不会改变梯度的方向
有时，每个平方项中的第二个Q网络不是当前的Q，而是过去的Q（双Q学习）

或者查看网站？可能，但请比较此处与此处之间的问题、答案、视图和投票数：。