Nlp 如何测试文本集群应用程序？_Nlp_Data Mining_Text Mining

Nlp 如何测试文本集群应用程序？

nlp

Nlp 如何测试文本集群应用程序？,nlp,data-mining,text-mining,Nlp,Data Mining,Text Mining,我正在开发一个应用程序，根据主题对文档进行集群。我正在使用LDA（潜在Dirichlet分配）算法。现在原型已经准备好了，并且有了一些结果我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点：一个主题中的文档实际上就是关于这个主题的这些主题彼此有很大的不同有什么最佳实践可以做到这一点吗？除了我的主观评价，还有什么客观指标吗？1.经过训练，我们得到主题词矩阵p（z | w），每一行都是单词的prob分配给主题，因此你可以打印出

我正在开发一个应用程序，根据主题对文档进行集群。我正在使用LDA（潜在Dirichlet分配）算法。现在原型已经准备好了，并且有了一些结果

我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点：

一个主题中的文档实际上就是关于这个主题的
这些主题彼此有很大的不同

有什么最佳实践可以做到这一点吗？除了我的主观评价，还有什么客观指标吗？

1.经过训练，我们得到主题词矩阵p（z | w），每一行都是单词的prob分配给主题，因此你可以打印出每个主题的前N个单词，并对它们进行评估，这将很容易与文档评估主题进行比较

3.至于如何调整alpha-beta，以及如何高效地调整topic_num，Hanna M.Wallach对此做了大量研究，我只是凭直觉，因为数据集太大了