Python PCA变换数据的可视化

Python PCA变换数据的可视化,python,machine-learning,k-means,pca,unsupervised-learning,Python,Machine Learning,K Means,Pca,Unsupervised Learning,我有一个数据集,我想用k-means进行聚类。 作为之前的一项任务,我对这些数据运行PCA,并确定了两个组件,它们代表了我的数据集几乎90%的信息。 我想将这两个部分形象化,以便得出一些见解 pca = PCA(n_components=2) data_trans = pca.fit_transform(data) plt.scatter(data_trans[:, 0], data_trans[:, 1]) 接下来,我尝试可视化相同的转换数据,但来自转置矩阵 pca = PCA(n_com

我有一个数据集,我想用k-means进行聚类。
作为之前的一项任务,我对这些数据运行PCA,并确定了两个组件,它们代表了我的数据集几乎90%的信息。 我想将这两个部分形象化,以便得出一些见解

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

接下来,我尝试可视化相同的转换数据,但来自转置矩阵

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data.T)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

最后一个图是否表示我的数据中可能有6个簇?
如果有,我可以从这两张图中得出什么结论?

您看到的6点不是簇

它们是您的输入维度

因为你使用了转置矩阵


从上面的情节来看,我怀疑聚类是否能找到任何有意义的东西。异常值和一个大斑点是绘图所包含的。

方差不是信息。添加高方差随机属性,它们将淹没您的信息。没有什么能让你不必了解你的数据…谢谢,这很有帮助。从那里,我如何隔离异常值并将其转换为原始数据?这种“翻译”的例子将非常有用。只需根据它们的值和ID选择它们,而不是将它们翻译回去。这里使用的PCA是有损的。但我也不认为异常值有什么帮助,它们可能只是人工制品。