Nlp 使Mallet主题建模稳定

Nlp 使Mallet主题建模稳定,nlp,topic-modeling,mallet,Nlp,Topic Modeling,Mallet,我正在使用mallettopicmodeling工具,但要使其稳定存在一些困难(我得到的主题似乎不太符合逻辑) 我参与了你的教程和那个:我有一些关于这个的问题: 是否有一些最佳实践可以让该模型发挥作用?除了optimize命令(什么是一个合适的数字)?什么是迭代的好数字 我使用import dir命令导入数据。在那个目录里有我的文件。这些文件是否包含新行文本或仅包含很长的行 我读过关于hLDA模型的文章。当我试着运行它时,我看到唯一的输出是state.txt输出,它不是很清楚。我希望有一个像主题

我正在使用mallettopicmodeling工具,但要使其稳定存在一些困难(我得到的主题似乎不太符合逻辑)

我参与了你的教程和那个:我有一些关于这个的问题:

  • 是否有一些最佳实践可以让该模型发挥作用?除了optimize命令(什么是一个合适的数字)?什么是迭代的好数字
  • 我使用import dir命令导入数据。在那个目录里有我的文件。这些文件是否包含新行文本或仅包含很长的行
  • 我读过关于hLDA模型的文章。当我试着运行它时,我看到唯一的输出是state.txt输出,它不是很清楚。我希望有一个像主题建模模型(topic_keys.txt,doc_topics.txt)这样的输出,我怎样才能得到它们
  • 什么时候应该使用hLDA而不是主题建模

  • 非常感谢你的帮助

    主题建模中的一些良好实践参考 乔丹·博伊德·格雷勃和戴夫·纽曼,乔丹·博伊德·格雷勃和胡跃宁

    对于超参数优化
    --优化间隔20--优化磨合50应该可以,它似乎对特定值不太敏感。Gibbs采样的收敛性很难评估,默认的1000次迭代应该被解释为“一个足够大的数字,可能可以”,而不是一个特定的值

    如果您正在从目录中的文件中读取单个文档,行并不重要。如果文件在停用词之前大于1000个令牌,考虑将它们分成更小的部分。

    hLDA的加入只是因为人们似乎想要它,我不推荐它用于任何目的