Optimization 在随机梯度下降中,由于成本函数是基于单个训练数据更新的,这是否会导致过度拟合?

Optimization 在随机梯度下降中,由于成本函数是基于单个训练数据更新的,这是否会导致过度拟合?,optimization,neural-network,deep-learning,gradient-descent,stochastic,Optimization,Neural Network,Deep Learning,Gradient Descent,Stochastic,当我们处理随机梯度下降时,代价函数是基于单个随机训练数据更新的 但是,这一单一条目可能会改变权重,使其对其有利。由于成本函数仅依赖于该条目,成本函数可能会误导我们,因为它实际上并没有降低成本,而是过度拟合了特定条目。对于下一个条目,权重将再次更新以支持此条目 这不会导致过度装修吗?如何解决此问题?训练数据不是随机的-SGD迭代所有训练点(单个或成批)。由于损失函数是针对数据批次(或单个训练点)计算的,因此可以将其视为权重空间中梯度向量分布的随机抽取,该梯度向量与在整个训练数据上计算的损失函数的全

当我们处理随机梯度下降时,代价函数是基于单个随机训练数据更新的

但是,这一单一条目可能会改变权重,使其对其有利。由于成本函数仅依赖于该条目,成本函数可能会误导我们,因为它实际上并没有降低成本,而是过度拟合了特定条目。对于下一个条目,权重将再次更新以支持此条目


这不会导致过度装修吗?如何解决此问题?

训练数据不是随机的-SGD迭代所有训练点(单个或成批)。由于损失函数是针对数据批次(或单个训练点)计算的,因此可以将其视为权重空间中梯度向量分布的随机抽取,该梯度向量与在整个训练数据上计算的损失函数的全局梯度不完全匹配。一个步骤绝对“过适合”批次/训练点,但我们只在该方向上采取一个步骤(由学习率调节,通常训练数据不是随机的-SGD迭代所有训练点(单个或成批)。因为损失函数是针对批次数据计算的(或单个训练点),可将其视为权重空间中梯度向量分布的随机抽取,该分布与在整个训练数据上计算的损失函数的全局梯度不完全匹配。单个步骤绝对是“过拟合”到批次/培训点,但我们只朝着这个方向迈出了一步(由学习率调节,学习率通常是阅读一些SGD理论(这不是真正的SO)。这都是关于期望和方差。阅读一些SGD理论(这不是真正的SO)。这都是关于期望和方差。