Java Mallet-LDA主题建模中的空主题_Java_Topic Modeling_Mallet

Java Mallet-LDA主题建模中的空主题

java

Java Mallet-LDA主题建模中的空主题,java,topic-modeling,mallet,Java,Topic Modeling,Mallet,当我使用更多的主题运行malletlda时（例如，T>300），我得到的主题词是空的（没有一个主题词）为什么会这样？这是木槌里的虫子吗我正在ubuntu 14.04机器上使用mallet2.0.7 编辑 mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \ --keep-sequence --remove-stopwords --token-reg

当我使用更多的主题运行malletlda时（例如，T>300），我得到的主题词是空的（没有一个主题词）

为什么会这样？这是木槌里的虫子吗

我正在ubuntu 14.04机器上使用mallet2.0.7

编辑

mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \
        --keep-sequence --remove-stopwords --token-regex "[\\p{Alpha}_]+"  #--save-text-in-source

  mallet-2.0.7/bin/mallet train-topics --input $outputDir/$posts.mallet \
        --num-topics $topics --output-state $outputDir/topic-state.gz \
        --output-topic-keys $outputDir/topics.txt --output-doc-topics $outputDir/document_composition.txt \
        --topic-word-weights-file $outputDir/topic_word_weights.txt --num-top-words $numtopwords \
        --optimize-interval 10 --word-topic-counts-file $outputDir/topic_counts.txt

至于语料库的细节，它包含大约1000个文件。每个文件可能包含一个或几个句子。语料库非常小，大约1MB。

我从David Mimno那里得到的答案是：

这通常表明相对于语料库的大小，您有大量的主题。Mallet使用Gibbs抽样，因此主题基于当前分配给主题的令牌的实际计数。这些“空洞”的话题本身并没有错，只要你知道不要对它们太过信任。

我从David Mimno那里得到的答案：

这通常表明相对于语料库的大小，您有大量的主题。Mallet使用Gibbs抽样，因此主题基于当前分配给主题的令牌的实际计数。这些“空洞”的主题本身没有问题，只要你知道不要对它们太过信任。

你能给出完整的命令行并告诉我们一些关于你的语料库的信息吗？请查看编辑！谢谢，我猜对于语料库的大小来说，主题太多了。是的，这可能是ans中所说的情况。你能给出完整的命令行吗？你能告诉我们一些关于你的语料库的信息吗？请查看编辑！谢天谢地，我猜就语料库的规模而言，主题太多了。是的，正如ans中所说的那样，可能就是这样。。