Machine learning 获取DBSCAN的集群文档_Machine Learning_Scikit Learn_Hierarchical Clustering_Dbscan

Machine learning 获取DBSCAN的集群文档

machine-learning scikit-learn

Machine learning 获取DBSCAN的集群文档,machine-learning,scikit-learn,hierarchical-clustering,dbscan,Machine Learning,Scikit Learn,Hierarchical Clustering,Dbscan,我尝试使用scikit中的DBSCAN学习对文本文档进行集群。我在sklearn中使用TF-IDF TFIDFvectorier创建每个文档的功能但是，我还没有找到一种方法来获得由DBSCAN聚集的文档 sklearn中的DBSCAN提供了一个名为“labels_u2;”的属性，该属性允许我们获取集群组标签，例如噪声的1、2、3、-1。但是，我希望获得由DBSCAN进行集群的文档，而不是集群组标签为了强调这一点，我想知道属于每个集群的文档是什么。你能给我一些建议吗多谢各位使用标签选择文

我尝试使用scikit中的DBSCAN学习对文本文档进行集群。我在sklearn中使用TF-IDF TFIDFvectorier创建每个文档的功能

但是，我还没有找到一种方法来获得由DBSCAN聚集的文档

sklearn中的DBSCAN提供了一个名为“labels_u2;”的属性，该属性允许我们获取集群组标签，例如噪声的1、2、3、-1。但是，我希望获得由DBSCAN进行集群的文档，而不是集群组标签

为了强调这一点，我想知道属于每个集群的文档是什么。你能给我一些建议吗

多谢各位

使用标签选择文档

X[labels_ == 1,:]

应为群集1中的所有文档。

请提供一个小的可复制样本数据集，并且您所需的数据集TfidfVectorizer不会从文本文档创建字典？文档中的文本值未群集。文档是集群的。文档由一个向量表示，该向量包含词汇表中单词的多个tf idf值。这些向量是聚集的。但矢量是由TfidfVectorizer生成的，而不是DBSCAN。所以请澄清你想做什么。是否要查看哪些文档属于哪个群集？或者你想看看词汇表？或者你想看一组最具代表性的单词吗？大家好！谢谢你的评论。我已经更新了问题描述。关于这个示例，我将尝试处理它并再次更新描述。尽管如此，我希望更新的问题描述已经足以澄清我的问题。为此，请使用标签。其顺序与原始文档相同。因此，如果labels=[1，-1,1,2,3,2]，这意味着数据中的第一个文档属于cluster1，第二个文档有噪声，第三个文档再次属于cluster1，依此类推