Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/google-app-engine/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 主成分分析_Machine Learning_Pca - Fatal编程技术网

Machine learning 主成分分析

Machine learning 主成分分析,machine-learning,pca,Machine Learning,Pca,我正在学习主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤,即平均归一化和特征缩放。然而,我不知道什么是标准化,以及如何实现标准化 起初我搜索它;然而,我找不到一个有益的解释。有人能解释什么是标准化以及如何实现标准化吗?假设有一个数据集具有“d”特征(列)和“n”观察值(行)。为了简单起见,考虑D=2和N=100。这意味着现在数据集有2个特征和100个观察值。 换句话说,现在您的数据集是一个具有100行和2列(100x2)的二维数组。 最初,当您将其可视化时,可

我正在学习主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤,即
平均归一化
特征缩放
。然而,我不知道什么是标准化,以及如何实现标准化


起初我搜索它;然而,我找不到一个有益的解释。有人能解释什么是标准化以及如何实现标准化吗?

假设有一个数据集具有“d”特征(列)和“n”观察值(行)。为了简单起见,考虑D=2和N=100。这意味着现在数据集有2个特征和100个观察值。 换句话说,现在您的数据集是一个具有100行和2列(100x2)的二维数组。 最初,当您将其可视化时,可以看到点分散在二维中

当您标准化数据集,并将其可视化时,您实际上可以看到所有点都已向原点移动。换句话说,所有观测点的平均值为0,标准偏差为1。这个过程称为标准化

你如何使…标准化。。? 这很简单。公式是直截了当的

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column
注意:必须对数据集中的所有要素应用标准化

参考:


这可能意味着将平均值集中在0左右,或者进一步进行标准化(z值)。然而,我不知道这两者与主成分分析有什么关系。如果你的分布是高斯分布,你可以通过((X-mu)/sigma)对每个数据点X进行归一化。即减去平均值,然后除以标准偏差。其他发行版有其他的标准化方法。您可以看到如何进行均值标准化和特征缩放。然而,更有趣的是这样做背后的原因。你可以读到它。