Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Mahout 0.9 CVB文档主题映射错误_Java_Hadoop_Cluster Analysis_Mahout - Fatal编程技术网

Java Mahout 0.9 CVB文档主题映射错误

Java Mahout 0.9 CVB文档主题映射错误,java,hadoop,cluster-analysis,mahout,Java,Hadoop,Cluster Analysis,Mahout,我正在尝试使用最新版本的Mahout对一组文档进行主题分析 主题到术语映射的输出是适当的,每个主题都有具有相应概率的术语列表 但是当我尝试将文档映射到主题时,它只显示一组以字母开头的主题。就像在本例中,所有主题都以字母a开头 以下是用于生成文档主题映射的示例代码: VectorDumper.main(new String[] { "-i" , inputDocTopicsDir , "-o", oututDocTopi

我正在尝试使用最新版本的Mahout对一组文档进行主题分析

主题到术语映射的输出是适当的,每个主题都有具有相应概率的术语列表

但是当我尝试将文档映射到主题时,它只显示一组以字母开头的主题。就像在本例中,所有主题都以字母a开头

以下是用于生成文档主题映射的示例代码:

VectorDumper.main(new String[] 
            { 
            "-i" , inputDocTopicsDir 
            , "-o", oututDocTopicsDir 
            , "-d", inputDictionaryDir 
            , "-dt", "sequencefile" 
            , "-sort", "true" 
            , "-vs", "10" });
样本输出:
3.D:0.0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0100071717171234123414141414141413991799 9 9 9 9 9 9 9.0 0 0.0 0.0 0.0 0.0.0 0 0.0 0 0.0 0.0 0 0 0 0 0 0.01010171717171717171717171712341397123414141393939919 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9.03,3,3.3.3,5.3,5 D:0.5,5 D:0.0.5 D:0.0.0.0.0.0 0.0.0.0.0.0.0.0.0 0 0.0.0.0.0.0.0.0.0.0 0 0 0 0 0 0 0 0 V:0.02000267326012652,ab:0.02025978185034182,aba:0.0199955381990327,放弃:0.020013355238553677,放弃:0.01999559962237951,放弃:0.019994194616256,放弃:0.02001431844984,减少:0.01997728075793184,缩写:0.02001189392395737}

这些是词向量,而不是主题。主题建模与聚类是不同的领域

K-means聚类(您可能正在使用)将提供平均字数,而不是直觉上接受的“主题”。没有一个k-means会把结果作为“美式足球”的主题。它不能。为此,请使用有监督的技术

您可能以某种方式截断了单词向量,它只提供按字母顺序排列的第一个单词


由于每个值都接近0.02,您的结果可能已退化为近乎随机的混乱状态。

您好,感谢您的回复。我正在使用CVB主题建模算法。我也对代码中的行为感到非常惊讶,因为我在各种论坛中都遵循了为其提供的步骤。打印文档主题映射时是否不应该使用字典?我可以分享代码,如果你想看看它来纠正它。谢谢