Python 文本数据的K-均值聚类:获取文本属于哪个聚类

Python 文本数据的K-均值聚类:获取文本属于哪个聚类,python,scikit-learn,cluster-analysis,nltk,k-means,Python,Scikit Learn,Cluster Analysis,Nltk,K Means,我使用Python中的K-Means(scikit-learn)对文本数据进行聚类。 如何获取该行所属的群集 例如: 数据=[“红色、黄色和蓝色是颜色”,“冰淇淋是我最喜欢的食物”,“你现在也可以吃草莓味的冰淇淋”,“天空是蓝色的”] 在使用n_clusters=2执行K-Means之后,我希望两个簇形成s.t “红色、黄色和蓝色是颜色”,“天空是蓝色”在一个簇中,“冰淇淋是我最喜欢的食物”,“你现在也可以得到草莓口味的冰淇淋”在另一个簇中 如何获取此信息,即哪一行在哪一个群集中 K-means

我使用Python中的K-Means(scikit-learn)对文本数据进行聚类。 如何获取该行所属的群集

例如: 数据=[“红色、黄色和蓝色是颜色”,“冰淇淋是我最喜欢的食物”,“你现在也可以吃草莓味的冰淇淋”,“天空是蓝色的”]

在使用n_clusters=2执行K-Means之后,我希望两个簇形成s.t

“红色、黄色和蓝色是颜色”,“天空是蓝色”在一个簇中,“冰淇淋是我最喜欢的食物”,“你现在也可以得到草莓口味的冰淇淋”在另一个簇中

如何获取此信息,即哪一行在哪一个群集中

K-means代码:

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(data)
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=500,  n_init=20)
model.fit(X)

尝试使用
predict
功能

范例-

model.predict(X)
从-

预测(X)

预测X中每个样本所属的最近聚类

在矢量量化文献中,聚类中心称为码本,预测返回的每个值都是码本中最接近的代码的索引

参数:
X:{类数组,稀疏矩阵},形状=[n_样本,n_特征] 需要预测的新数据

返回:
标签:数组、形状[n_示例,] 每个样本所属集群的索引

这似乎返回每个样本所属集群的索引数组

也许你也可以使用-function

您可以使用属性-
cluster\u centers.
,在您的示例中是-
model.cluster\u centers.
和每个示例-
model.labels.
,来获取群集中心