使用PCA（Python）可视化集群结果_Python_Cluster Analysis_K Means

使用PCA（Python）可视化集群结果

python

使用PCA（Python）可视化集群结果,python,cluster-analysis,k-means,Python,Cluster Analysis,K Means,我有一个包含61行（用户）和26列的数据集，我使用k-means和其他算法对其进行聚类。在对数据集进行规范化之后，首先对其应用KMeans。作为之前的一项任务，在对数据进行规范化之后，我对该数据运行k-means，并确定了10个集群。同时，我还尝试可视化这些集群，这就是为什么我使用PCA来减少我的特征数量我编写了以下代码： UserID Communication_dur Lifestyle_dur Music & Audio_dur Others_dur Per

我有一个包含61行（用户）和26列的数据集，我使用k-means和其他算法对其进行聚类。在对数据集进行规范化之后，首先对其应用KMeans。作为之前的一项任务，在对数据进行规范化之后，我对该数据运行k-means，并确定了10个集群。同时，我还尝试可视化这些集群，这就是为什么我使用PCA来减少我的特征数量

我编写了以下代码：

UserID  Communication_dur   Lifestyle_dur   Music & Audio_dur   Others_dur  Personnalisation_dur    Phone_and_SMS_dur   Photography_dur Productivity_dur    Social_Media_dur    System_tools_dur    ... Music & Audio_Freq  Others_Freq Personnalisation_Freq   Phone_and_SMS_Freq  Photography_Freq    Productivity_Freq   Social_Media_Freq   System_tools_Freq   Video players & Editors_Freq    Weather_Freq
1   63  219 9   10  99  42  36  30  76  20  ... 2   1   11  5   3   3   9   1   4   8
2   9   0   0   6   78  0   32  4   15  3   ... 0   2   4   0   2   1   2   1   0   0


from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(3) 
pca.fit(X) 
pca_data = pd.DataFrame(pca.transform(X)) 
print(pca_data.head())

给出了以下结果：

我想通过使用PCA显示数据集的一个图（簇）并解释结果？我真的是这个领域的新手，建议将不胜感激

再次提前感谢。

使用示例数据集：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)

执行缩放、PCA并将PC分数放入数据框：

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2) 
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])

执行kmeans并将标签放入数据框中，您可以使用seaborn：

kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)

或matplotlib：

fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
                    loc="upper left", title="")
ax.add_artist(legend1)

使用示例数据集：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)

执行缩放、PCA并将PC分数放入数据框：

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2) 
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])

执行kmeans并将标签放入数据框中，您可以使用seaborn：

kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)

或matplotlib：

fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
                    loc="upper left", title="")
ax.add_artist(legend1)

您想要3D还是2D？2D会更容易，但现在你有了3D。我想要2D！我可以更改pca=pca（2）这是否回答了您的问题？不，我找不到任何解决办法！你想要3D还是2D？2D会更容易，但现在你有了3D。我想要2D！我可以更改pca=pca（2）这是否回答了您的问题？不，我找不到任何解决办法！此错误为raise:TypeError:data type不了解您所在的seaborn版本。我在“0.11.0”上。好的，我添加一个matplotlib代码谢谢你的回答！如何处理重叠群体。嘿。。这是另一个问题，我无法看到您的屏幕或您的数据来对此进行评论或帮助。请用可复制的数据发布另一个问题以获得帮助。我还注意到你从未接受过一个答案。请看。所以这不是一个让其他用户为你编码的地方！！！此错误为raise:TypeError:data type不了解您所在的seaborn版本。我在“0.11.0”上。好的，我添加一个matplotlib代码谢谢你的回答！如何处理重叠群体。嘿。。这是另一个问题，我无法看到您的屏幕或您的数据来对此进行评论或帮助。请用可复制的数据发布另一个问题以获得帮助。我还注意到你从未接受过一个答案。请看。所以这不是一个让其他用户为你编码的地方！！！