Hadoop 解释mahout clusterdumper的输出
我对爬网页面(超过25K个文档;个人数据集)进行了聚类测试。 我做了一个集群转储:Hadoop 解释mahout clusterdumper的输出,hadoop,cluster-analysis,k-means,mahout,Hadoop,Cluster Analysis,K Means,Mahout,我对爬网页面(超过25K个文档;个人数据集)进行了聚类测试。 我做了一个集群转储: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt 运行集群转储程序后的输出显示为25个元素“VL-xxxxx{}”: 如何解释这个输出 简而言之:我正在寻找属于特定集群的文档ID 以下是什么意思: VL-x n=yc=[z:z',…] r=[z':z',…] 0:0.
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
运行集群转储程序后的输出显示为25个元素“VL-xxxxx{}”:
如何解释这个输出
简而言之:我正在寻找属于特定集群的文档ID
以下是什么意思:
- VL-x
- n=yc=[z:z',…]
- r=[z':z',…]
抱歉,如果我问了一些愚蠢的问题,但我是一个新手,拥有apache mahout,并将其作为集群课程作业的一部分。我认为您需要阅读源代码——从下载<代码>VL-24130只是聚合集群的集群标识符
vector=newnamedvector(newsequentialaccesssparsevector(基数),arrField[0]);
import java.io.*;
导入java.util.ArrayList;
导入java.util.HashMap;
导入java.util.List;
导入java.util.Map;
导入java.util.Set;
导入java.util.TreeMap;
导入org.apache.hadoop.conf.Configuration;
导入org.apache.hadoop.fs.FileSystem;
导入org.apache.hadoop.fs.Path;
导入org.apache.hadoop.io.IntWritable;
导入org.apache.hadoop.io.SequenceFile;
导入org.apache.mahout.clustering.WeightedVectorWritable;
导入org.apache.mahout.common.Pair;
导入org.apache.mahout.common.iterator.sequencefile.PathFilters;
导入org.apache.mahout.common.iterator.sequencefile.PathType;
导入org.apache.mahout.common.iterator.sequencefile.SequenceFileDirIterable;
导入org.apache.mahout.math.NamedVector;
公共类ClusterOutput{
/**
*@param args
*/
公共静态void main(字符串[]args){
//TODO自动生成的方法存根
试一试{
缓冲写入器bw;
Configuration conf=新配置();
FileSystem fs=FileSystem.get(conf);
文件点文件夹=新文件(args[0]);
文件文件[]=pointsFolder.listFiles();
bw=新的BufferedWriter(新的FileWriter(新文件(args[1]));
HashMap簇;
clusterIds=newhashmap(5000);
用于(文件:文件){
如果(file.getName().indexOf(“part-m”)您可以使用mahoutclusterdump
要完成答案:
- VL-x:集群的标识符
- n=y:是群集中的元素数
- c=[z,…]:是簇的质心,具有
z是不同维度的权重
- r=[z,…]:是簇的半径
更多信息请点击此处:
请阅读问题。OP已经使用了clusterdumper。c=[monkey:0.7,0.7意味着什么?这是平均术语权重吗?如果我使用单词计数,这是平均单词计数吗?按顺序排列,此集群中的文档平均有70%的时间使用monkey?
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}