Java Mahout 0.9 CVB文档主题映射错误
我正在尝试使用最新版本的Mahout对一组文档进行主题分析 主题到术语映射的输出是适当的,每个主题都有具有相应概率的术语列表 但是当我尝试将文档映射到主题时,它只显示一组以字母开头的主题。就像在本例中,所有主题都以字母a开头 以下是用于生成文档主题映射的示例代码:Java Mahout 0.9 CVB文档主题映射错误,java,hadoop,cluster-analysis,mahout,Java,Hadoop,Cluster Analysis,Mahout,我正在尝试使用最新版本的Mahout对一组文档进行主题分析 主题到术语映射的输出是适当的,每个主题都有具有相应概率的术语列表 但是当我尝试将文档映射到主题时,它只显示一组以字母开头的主题。就像在本例中,所有主题都以字母a开头 以下是用于生成文档主题映射的示例代码: VectorDumper.main(new String[] { "-i" , inputDocTopicsDir , "-o", oututDocTopi
VectorDumper.main(new String[]
{
"-i" , inputDocTopicsDir
, "-o", oututDocTopicsDir
, "-d", inputDictionaryDir
, "-dt", "sequencefile"
, "-sort", "true"
, "-vs", "10" });
样本输出:
3.D:0.0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0 0 0.0100071717171234123414141414141413991799 9 9 9 9 9 9 9.0 0 0.0 0.0 0.0 0.0.0 0 0.0 0 0.0 0.0 0 0 0 0 0 0.01010171717171717171717171712341397123414141393939919 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9.03,3,3.3.3,5.3,5 D:0.5,5 D:0.0.5 D:0.0.0.0.0.0 0.0.0.0.0.0.0.0.0 0 0.0.0.0.0.0.0.0.0.0 0 0 0 0 0 0 0 0 V:0.02000267326012652,ab:0.02025978185034182,aba:0.0199955381990327,放弃:0.020013355238553677,放弃:0.01999559962237951,放弃:0.019994194616256,放弃:0.02001431844984,减少:0.01997728075793184,缩写:0.02001189392395737}这些是词向量,而不是主题。主题建模与聚类是不同的领域 K-means聚类(您可能正在使用)将提供平均字数,而不是直觉上接受的“主题”。没有一个k-means会把结果作为“美式足球”的主题。它不能。为此,请使用有监督的技术 您可能以某种方式截断了单词向量,它只提供按字母顺序排列的第一个单词
由于每个值都接近0.02,您的结果可能已退化为近乎随机的混乱状态。您好,感谢您的回复。我正在使用CVB主题建模算法。我也对代码中的行为感到非常惊讶,因为我在各种论坛中都遵循了为其提供的步骤。打印文档主题映射时是否不应该使用字典?我可以分享代码,如果你想看看它来纠正它。谢谢