Cluster computing Mahout ClusterDump-显示图形输出时出现奇数结果

Cluster computing Mahout ClusterDump-显示图形输出时出现奇数结果,cluster-computing,visualization,mahout,k-means,Cluster Computing,Visualization,Mahout,K Means,我一直在使用Mahout来使用XML和SOLR索引输入对k-means文本文档进行聚类 聚类似乎是有效的,类似的文档确实被放在同一个k-means聚类中,这非常好 但是,每当我使用ClusterDump(--outputFormat GRAPH_ML)显示graphml输出时,我都会得到一个显示所有簇的图,但是每个元素都显示在其父簇的周围,这意味着每个元素从质心开始的半径大致相同 我希望元素根据彼此的相似性分散在集群中(如Mahout示例中所示) 有没有人见过他们的Mahout k-means集

我一直在使用Mahout来使用XML和SOLR索引输入对k-means文本文档进行聚类

聚类似乎是有效的,类似的文档确实被放在同一个k-means聚类中,这非常好

但是,每当我使用ClusterDump(--outputFormat GRAPH_ML)显示graphml输出时,我都会得到一个显示所有簇的图,但是每个元素都显示在其父簇的周围,这意味着每个元素从质心开始的半径大致相同

我希望元素根据彼此的相似性分散在集群中(如Mahout示例中所示)

有没有人见过他们的Mahout k-means集群有什么相似之处?我自己也曾试图弄清这件事的真相,但任何暗示或建议都会大有帮助

非常感谢


p Morris

请您解释一下,您是如何成功地使用mahout和kmeans算法对solr索引输入进行聚类的

顺便说一句,我在clusterize.txt文件时的输出(clusters\u dump)如下所示:

CL-0{n=0c=[0:1.000,1:1.000,2:3.162,3:1.000,4:4.796,6:1.000,7:1.000,8:1.000,9:1.000,10:1.000,11:1.000,12:4.690,14:1.000,15:11.446,16:4.359]r=[]

CL-1{n=0c=[0:1.000,1:1.000,2:3.162,3:1.000,6:1.000,7:1.000,8:1.000,9:1.000,10:1.000,11:1.000,14:1.000,15:11.446]r=[]

CL-2{n=0c=[4:1.000,12:1.000,13:8.315,16:1.000]r=[]

因为我指定了集群数量3