使用PCA(Python)可视化集群结果
我有一个包含61行(用户)和26列的数据集,我使用k-means和其他算法对其进行聚类。 在对数据集进行规范化之后,首先对其应用KMeans。 作为之前的一项任务,在对数据进行规范化之后,我对该数据运行k-means,并确定了10个集群。 同时,我还尝试可视化这些集群,这就是为什么我使用PCA来减少我的特征数量 我编写了以下代码:使用PCA(Python)可视化集群结果,python,cluster-analysis,k-means,Python,Cluster Analysis,K Means,我有一个包含61行(用户)和26列的数据集,我使用k-means和其他算法对其进行聚类。 在对数据集进行规范化之后,首先对其应用KMeans。 作为之前的一项任务,在对数据进行规范化之后,我对该数据运行k-means,并确定了10个集群。 同时,我还尝试可视化这些集群,这就是为什么我使用PCA来减少我的特征数量 我编写了以下代码: UserID Communication_dur Lifestyle_dur Music & Audio_dur Others_dur Per
UserID Communication_dur Lifestyle_dur Music & Audio_dur Others_dur Personnalisation_dur Phone_and_SMS_dur Photography_dur Productivity_dur Social_Media_dur System_tools_dur ... Music & Audio_Freq Others_Freq Personnalisation_Freq Phone_and_SMS_Freq Photography_Freq Productivity_Freq Social_Media_Freq System_tools_Freq Video players & Editors_Freq Weather_Freq
1 63 219 9 10 99 42 36 30 76 20 ... 2 1 11 5 3 3 9 1 4 8
2 9 0 0 6 78 0 32 4 15 3 ... 0 2 4 0 2 1 2 1 0 0
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(3)
pca.fit(X)
pca_data = pd.DataFrame(pca.transform(X))
print(pca_data.head())
给出了以下结果:
0 1 2
0 8 -4 5
1 -2 -2 1
2 1 1 -0
3 2 -1 1
4 3 -1 -3
我想通过使用PCA显示数据集的一个图(簇)并解释结果?
我真的是这个领域的新手,建议将不胜感激
再次提前感谢。使用示例数据集:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)
执行缩放、PCA并将PC分数放入数据框:
Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2)
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])
执行kmeans并将标签放入数据框中,您可以使用seaborn:
kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)
或matplotlib:
fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
loc="upper left", title="")
ax.add_artist(legend1)
使用示例数据集:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)
执行缩放、PCA并将PC分数放入数据框:
Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2)
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])
执行kmeans并将标签放入数据框中,您可以使用seaborn:
kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)
或matplotlib:
fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
loc="upper left", title="")
ax.add_artist(legend1)
您想要3D还是2D?2D会更容易,但现在你有了3D。我想要2D!我可以更改pca=pca(2)这是否回答了您的问题?不,我找不到任何解决办法!你想要3D还是2D?2D会更容易,但现在你有了3D。我想要2D!我可以更改pca=pca(2)这是否回答了您的问题?不,我找不到任何解决办法!此错误为raise:TypeError:data type不了解您所在的seaborn版本。我在“0.11.0”上。好的,我添加一个matplotlib代码谢谢你的回答!如何处理重叠群体。嘿。。这是另一个问题,我无法看到您的屏幕或您的数据来对此进行评论或帮助。请用可复制的数据发布另一个问题以获得帮助。我还注意到你从未接受过一个答案。请看。所以这不是一个让其他用户为你编码的地方!!!此错误为raise:TypeError:data type不了解您所在的seaborn版本。我在“0.11.0”上。好的,我添加一个matplotlib代码谢谢你的回答!如何处理重叠群体。嘿。。这是另一个问题,我无法看到您的屏幕或您的数据来对此进行评论或帮助。请用可复制的数据发布另一个问题以获得帮助。我还注意到你从未接受过一个答案。请看。所以这不是一个让其他用户为你编码的地方!!!