Machine learning 主成分分析_Machine Learning_Pca

Machine learning 主成分分析

machine-learning

Machine learning 主成分分析,machine-learning,pca,Machine Learning,Pca,我正在学习主成分分析，我刚刚了解到，在将PCA应用于数据样本之前，我们必须应用两个预处理步骤，即平均归一化和特征缩放。然而，我不知道什么是标准化，以及如何实现标准化起初我搜索它；然而，我找不到一个有益的解释。有人能解释什么是标准化以及如何实现标准化吗？假设有一个数据集具有“d”特征（列）和“n”观察值（行）。为了简单起见，考虑D＝2和N＝100。这意味着现在数据集有2个特征和100个观察值。换句话说，现在您的数据集是一个具有100行和2列（100x2）的二维数组。最初，当您将其可视化时，可

我正在学习主成分分析，我刚刚了解到，在将PCA应用于数据样本之前，我们必须应用两个预处理步骤，即

平均归一化

和

特征缩放

。然而，我不知道什么是标准化，以及如何实现标准化

起初我搜索它；然而，我找不到一个有益的解释。有人能解释什么是标准化以及如何实现标准化吗？

假设有一个数据集具有“d”特征（列）和“n”观察值（行）。为了简单起见，考虑D＝2和N＝100。这意味着现在数据集有2个特征和100个观察值。换句话说，现在您的数据集是一个具有100行和2列（100x2）的二维数组。最初，当您将其可视化时，可以看到点分散在二维中

当您标准化数据集，并将其可视化时，您实际上可以看到所有点都已向原点移动。换句话说，所有观测点的平均值为0，标准偏差为1。这个过程称为标准化

你如何使…标准化。。？这很简单。公式是直截了当的

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column

注意：必须对数据集中的所有要素应用标准化

参考：

这可能意味着将平均值集中在0左右，或者进一步进行标准化（z值）。然而，我不知道这两者与主成分分析有什么关系。如果你的分布是高斯分布，你可以通过（（X-mu）/sigma）对每个数据点X进行归一化。即减去平均值，然后除以标准偏差。其他发行版有其他的标准化方法。您可以看到如何进行均值标准化和特征缩放。然而，更有趣的是这样做背后的原因。你可以读到它。