Python PCA变换数据的可视化_Python_Machine Learning_K Means_Pca_Unsupervised Learning

Python PCA变换数据的可视化

python machine-learning

Python PCA变换数据的可视化,python,machine-learning,k-means,pca,unsupervised-learning,Python,Machine Learning,K Means,Pca,Unsupervised Learning,我有一个数据集，我想用k-means进行聚类。作为之前的一项任务，我对这些数据运行PCA，并确定了两个组件，它们代表了我的数据集几乎90%的信息。我想将这两个部分形象化，以便得出一些见解 pca = PCA(n_components=2) data_trans = pca.fit_transform(data) plt.scatter(data_trans[:, 0], data_trans[:, 1]) 接下来，我尝试可视化相同的转换数据，但来自转置矩阵 pca = PCA(n_com

我有一个数据集，我想用k-means进行聚类。
作为之前的一项任务，我对这些数据运行PCA，并确定了两个组件，它们代表了我的数据集几乎90%的信息。我想将这两个部分形象化，以便得出一些见解

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

接下来，我尝试可视化相同的转换数据，但来自转置矩阵

pca = PCA(n_components=2)
data_trans = pca.fit_transform(data.T)
plt.scatter(data_trans[:, 0], data_trans[:, 1])

最后一个图是否表示我的数据中可能有6个簇？

如果有，我可以从这两张图中得出什么结论？

您看到的6点不是簇

它们是您的输入维度

因为你使用了转置矩阵

从上面的情节来看，我怀疑聚类是否能找到任何有意义的东西。异常值和一个大斑点是绘图所包含的。

方差不是信息。添加高方差随机属性，它们将淹没您的信息。没有什么能让你不必了解你的数据…谢谢，这很有帮助。从那里，我如何隔离异常值并将其转换为原始数据？这种“翻译”的例子将非常有用。只需根据它们的值和ID选择它们，而不是将它们翻译回去。这里使用的PCA是有损的。但我也不认为异常值有什么帮助，它们可能只是人工制品。