Machine learning 特征规范化-l2规范化的优势

Machine learning 特征规范化-l2规范化的优势,machine-learning,computer-vision,Machine Learning,Computer Vision,特征通常在分类之前进行标准化 文献中通常使用L1和L2规范化 有谁能评论一下二语规范(或一语规范)相对于一语规范(或二语规范)的优势吗?二语相对于一语规范的优势 正如aleju在评论中所述,L2范数的推导很容易计算。因此,使用基于梯度的学习方法也很容易 L2正则化 优化平均成本(而L1降低了中位数 )这通常被用作绩效衡量标准。如果您知道没有任何异常值,并且希望将总体误差保持在较小的范围内,这一点尤其好 解决方案更可能是独一无二的。这与前一点有关:虽然平均值是单个值,但中值可能位于两点之间的间隔

特征通常在分类之前进行标准化

文献中通常使用L1和L2规范化


有谁能评论一下二语规范(或一语规范)相对于一语规范(或二语规范)的优势吗?

二语相对于一语规范的优势

  • 正如aleju在评论中所述,L2范数的推导很容易计算。因此,使用基于梯度的学习方法也很容易
  • L2正则化 优化平均成本(而L1降低了中位数 )这通常被用作绩效衡量标准。如果您知道没有任何异常值,并且希望将总体误差保持在较小的范围内,这一点尤其好
  • 解决方案更可能是独一无二的。这与前一点有关:虽然平均值是单个值,但中值可能位于两点之间的间隔内,因此不是唯一的
  • 虽然L1正则化可以为您提供稀疏系数向量,但L2的非稀疏性可以提高您的预测性能(因为您可以利用更多特征,而不是简单地忽略它们)
  • L2在旋转下是不变的。如果有一个由空间中的点组成的数据集,并且应用了旋转,则仍然会得到相同的结果(即点之间的距离保持不变)
母语相对于二语规范的优势

  • L1范数更喜欢稀疏系数向量。()这意味着L1范数执行特征选择,您可以删除系数为0的所有特征。在几乎所有情况下,减小尺寸都是有用的
  • L1范数优化中值。因此,L1范数对异常值不敏感
更多资料来源:


如果您正在处理反问题,L1将返回一个更稀疏的矩阵,L2将返回一个更相关的矩阵。

计算L2范数的导数更容易,因为它将每个向量分量平方(与使用绝对值的L1相比)。您可以查看math