Cluster computing Mahout ClusterDump-显示图形输出时出现奇数结果_Cluster Computing_Visualization_Mahout_K Means

Cluster computing Mahout ClusterDump-显示图形输出时出现奇数结果

cluster-computing

Cluster computing Mahout ClusterDump-显示图形输出时出现奇数结果,cluster-computing,visualization,mahout,k-means,Cluster Computing,Visualization,Mahout,K Means,我一直在使用Mahout来使用XML和SOLR索引输入对k-means文本文档进行聚类聚类似乎是有效的，类似的文档确实被放在同一个k-means聚类中，这非常好但是，每当我使用ClusterDump（--outputFormat GRAPH_ML）显示graphml输出时，我都会得到一个显示所有簇的图，但是每个元素都显示在其父簇的周围，这意味着每个元素从质心开始的半径大致相同我希望元素根据彼此的相似性分散在集群中（如Mahout示例中所示）有没有人见过他们的Mahout k-means集

我一直在使用Mahout来使用XML和SOLR索引输入对k-means文本文档进行聚类

聚类似乎是有效的，类似的文档确实被放在同一个k-means聚类中，这非常好

但是，每当我使用ClusterDump（--outputFormat GRAPH_ML）显示graphml输出时，我都会得到一个显示所有簇的图，但是每个元素都显示在其父簇的周围，这意味着每个元素从质心开始的半径大致相同

我希望元素根据彼此的相似性分散在集群中（如Mahout示例中所示）

有没有人见过他们的Mahout k-means集群有什么相似之处？我自己也曾试图弄清这件事的真相，但任何暗示或建议都会大有帮助

非常感谢

p Morris

请您解释一下，您是如何成功地使用mahout和kmeans算法对solr索引输入进行聚类的

顺便说一句，我在clusterize.txt文件时的输出（clusters\u dump）如下所示：

CL-0{n=0c=[0:1.000，1:1.000，2:3.162，3:1.000，4:4.796，6:1.000，7:1.000，8:1.000，9:1.000，10:1.000，11:1.000，12:4.690，14:1.000，15:11.446，16:4.359]r=[]

CL-1{n=0c=[0:1.000，1:1.000，2:3.162，3:1.000，6:1.000，7:1.000，8:1.000，9:1.000，10:1.000，11:1.000，14:1.000，15:11.446]r=[]

CL-2{n=0c=[4:1.000,12:1.000,13:8.315,16:1.000]r=[]

因为我指定了集群数量3