Python 文本数据的K-均值聚类：获取文本属于哪个聚类_Python_Scikit Learn_Cluster Analysis_Nltk_K Means

Python 文本数据的K-均值聚类：获取文本属于哪个聚类

python scikit-learn

Python 文本数据的K-均值聚类：获取文本属于哪个聚类,python,scikit-learn,cluster-analysis,nltk,k-means,Python,Scikit Learn,Cluster Analysis,Nltk,K Means,我使用Python中的K-Means（scikit-learn）对文本数据进行聚类。如何获取该行所属的群集例如：数据=[“红色、黄色和蓝色是颜色”，“冰淇淋是我最喜欢的食物”，“你现在也可以吃草莓味的冰淇淋”，“天空是蓝色的”] 在使用n_clusters=2执行K-Means之后，我希望两个簇形成s.t “红色、黄色和蓝色是颜色”，“天空是蓝色”在一个簇中，“冰淇淋是我最喜欢的食物”，“你现在也可以得到草莓口味的冰淇淋”在另一个簇中如何获取此信息，即哪一行在哪一个群集中 K-means

我使用Python中的K-Means（scikit-learn）对文本数据进行聚类。如何获取该行所属的群集

例如：数据=[“红色、黄色和蓝色是颜色”，“冰淇淋是我最喜欢的食物”，“你现在也可以吃草莓味的冰淇淋”，“天空是蓝色的”]

在使用n_clusters=2执行K-Means之后，我希望两个簇形成s.t

“红色、黄色和蓝色是颜色”，“天空是蓝色”在一个簇中，“冰淇淋是我最喜欢的食物”，“你现在也可以得到草莓口味的冰淇淋”在另一个簇中

如何获取此信息，即哪一行在哪一个群集中

K-means代码：

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(data)
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=500,  n_init=20)
model.fit(X)

尝试使用

predict

功能

范例-

model.predict(X)

从-

预测（X）

预测X中每个样本所属的最近聚类

在矢量量化文献中，聚类中心称为码本，预测返回的每个值都是码本中最接近的代码的索引

参数：
X:{类数组，稀疏矩阵}，形状=[n_样本，n_特征] 需要预测的新数据

返回：
标签：数组、形状[n_示例，] 每个样本所属集群的索引

这似乎返回每个样本所属集群的索引数组

也许你也可以使用-function

您可以使用属性-

cluster\u centers.

，在您的示例中是-

model.cluster\u centers.

和每个示例-

model.labels.

，来获取群集中心