Machine learning 特征规范化

Machine learning 特征规范化,machine-learning,statistics,Machine Learning,Statistics,在统计学中,我们几乎从不进行特征标准化。我们在需要时将协变量集中,但不进行标准化。在机器学习中,特别是深度学习特征规范化是至关重要的。为什么它在某些应用中很重要,但在其他应用中并不重要。对于机器学习方法,缩放很重要,因为它会影响目标函数的计算 例如,许多算法使用欧几里德距离进行分类,如果你有一个特征的值比其他特征大得多,它将支配距离,因此你得到的预测将只受这个单一特征的影响 缩放还有助于梯度下降(许多算法中用于最小化误差函数的方法)更快地收敛。支持向量机还可以使用标准化值更快地进行训练 总之,将

在统计学中,我们几乎从不进行特征标准化。我们在需要时将协变量集中,但不进行标准化。在机器学习中,特别是深度学习特征规范化是至关重要的。为什么它在某些应用中很重要,但在其他应用中并不重要。

对于机器学习方法,缩放很重要,因为它会影响目标函数的计算

例如,许多算法使用欧几里德距离进行分类,如果你有一个特征的值比其他特征大得多,它将支配距离,因此你得到的预测将只受这个单一特征的影响

缩放还有助于梯度下降(许多算法中用于最小化误差函数的方法)更快地收敛。支持向量机还可以使用标准化值更快地进行训练

总之,将所有值放在同一比例有助于计算。我的猜测是,为什么它在机器学习中如此重要,而在统计学中却不那么必要,是因为机器学习算法通常具有多次迭代的循环。在每次迭代中,“超出比例”的值影响越来越大,主导着模型。另一方面,统计方法没有这些循环,因此缩放不会对其产生太大影响