Machine learning 随机梯度下降增加了成本函数
在神经网络中,梯度下降搜索整个训练集以计算梯度。成本函数随着迭代次数的增加而减少。如果成本函数增加,通常是因为错误或不适当的学习率 相反,随机梯度下降计算每个训练示例的梯度。我想知道成本函数是否可能从一个示例增加到另一个示例,即使实现是正确的,参数也经过了很好的调整。我有一种感觉,成本函数的异常增量是可以的,因为梯度遵循单个样本的最小化,这可能与整个系统的收敛方向不同Machine learning 随机梯度下降增加了成本函数,machine-learning,neural-network,gradient-descent,Machine Learning,Neural Network,Gradient Descent,在神经网络中,梯度下降搜索整个训练集以计算梯度。成本函数随着迭代次数的增加而减少。如果成本函数增加,通常是因为错误或不适当的学习率 相反,随机梯度下降计算每个训练示例的梯度。我想知道成本函数是否可能从一个示例增加到另一个示例,即使实现是正确的,参数也经过了很好的调整。我有一种感觉,成本函数的异常增量是可以的,因为梯度遵循单个样本的最小化,这可能与整个系统的收敛方向不同 在随机梯度下降中是否期望成本函数的增量?理论上,我们被告知,如果模型不是过拟合或欠拟合,梯度下降将随时间而减小。然而,在实践中,
在随机梯度下降中是否期望成本函数的增量?理论上,我们被告知,如果模型不是过拟合或欠拟合,梯度下降将随时间而减小。然而,在实践中,这并不完全正确。在一个更真实的优化问题中,您会注意到代价函数实际上非常嘈杂。它将有很多峰值,很难看到实际的下降趋势。为了看到趋势,你必须计算一个移动平均值,这样信号就会变得更清晰,你就能看到成本函数是在减少还是在增加。希望这有帮助
- 嘈杂的收敛wrt。损失函数的衰减通常是随机梯度下降的结果
- 尝试使用具有显著批量大小的小批量梯度下降。当来自不同图像的平均梯度在权重空间中指向最佳方向时,损失图变得平滑
(建议使用优化器,例如Adam,它将动态调整学习率,以便为您管理此折衷) 我想现在很多人把它叫做随机梯度(因为它不是一种严格的下降法)。