Machine learning 获取DBSCAN的集群文档

Machine learning 获取DBSCAN的集群文档,machine-learning,scikit-learn,hierarchical-clustering,dbscan,Machine Learning,Scikit Learn,Hierarchical Clustering,Dbscan,我尝试使用scikit中的DBSCAN学习对文本文档进行集群。我在sklearn中使用TF-IDF TFIDFvectorier创建每个文档的功能 但是,我还没有找到一种方法来获得由DBSCAN聚集的文档 sklearn中的DBSCAN提供了一个名为“labels_u2;”的属性,该属性允许我们获取集群组标签,例如噪声的1、2、3、-1。但是,我希望获得由DBSCAN进行集群的文档,而不是集群组标签 为了强调这一点,我想知道属于每个集群的文档是什么。 你能给我一些建议吗 多谢各位 使用标签选择文

我尝试使用scikit中的DBSCAN学习对文本文档进行集群。我在sklearn中使用TF-IDF TFIDFvectorier创建每个文档的功能

但是,我还没有找到一种方法来获得由DBSCAN聚集的文档

sklearn中的DBSCAN提供了一个名为“labels_u2;”的属性,该属性允许我们获取集群组标签,例如噪声的1、2、3、-1。但是,我希望获得由DBSCAN进行集群的文档,而不是集群组标签

为了强调这一点,我想知道属于每个集群的文档是什么。 你能给我一些建议吗


多谢各位

使用标签选择文档

X[labels_ == 1,:]

应为群集1中的所有文档。

请提供一个小的可复制样本数据集,并且您所需的数据集TfidfVectorizer不会从文本文档创建字典?文档中的文本值未群集。文档是集群的。文档由一个向量表示,该向量包含词汇表中单词的多个tf idf值。这些向量是聚集的。但矢量是由TfidfVectorizer生成的,而不是DBSCAN。所以请澄清你想做什么。是否要查看哪些文档属于哪个群集?或者你想看看词汇表?或者你想看一组最具代表性的单词吗?大家好!谢谢你的评论。我已经更新了问题描述。关于这个示例,我将尝试处理它并再次更新描述。尽管如此,我希望更新的问题描述已经足以澄清我的问题。为此,请使用标签。其顺序与原始文档相同。因此,如果labels=[1,-1,1,2,3,2],这意味着数据中的第一个文档属于cluster1,第二个文档有噪声,第三个文档再次属于cluster1,依此类推