Nlp 如何测试文本集群应用程序?
我正在开发一个应用程序,根据主题对文档进行集群。我正在使用LDA(潜在Dirichlet分配)算法。现在原型已经准备好了,并且有了一些结果 我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点:Nlp 如何测试文本集群应用程序?,nlp,data-mining,text-mining,Nlp,Data Mining,Text Mining,我正在开发一个应用程序,根据主题对文档进行集群。我正在使用LDA(潜在Dirichlet分配)算法。现在原型已经准备好了,并且有了一些结果 我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点: 一个主题中的文档实际上就是关于这个主题的 这些主题彼此有很大的不同 有什么最佳实践可以做到这一点吗?除了我的主观评价,还有什么客观指标吗?1.经过训练,我们得到主题词矩阵p(z | w),每一行都是单词的prob分配给主题,因此你可以打印出
- 一个主题中的文档实际上就是关于这个主题的
- 这些主题彼此有很大的不同
有什么最佳实践可以做到这一点吗?除了我的主观评价,还有什么客观指标吗?1.经过训练,我们得到主题词矩阵p(z | w),每一行都是单词的prob分配给主题,因此你可以打印出每个主题的前N个单词,并对它们进行评估,这将很容易与文档评估主题进行比较 2.我想你在这里要问的问题是训练是否收敛,我只是评估p(z | w),当p(z | w)稳定时,这意味着模型收敛于我们选择的参数(alpha,beta,topic | num)。当我们调整topic num时,我们可以得到关于所有topic num的稳定P(z | w),我们选择topic num作为最大P(z | w)。你可以参考报纸 3.至于如何调整alpha-beta,以及如何高效地调整topic_num,Hanna M.Wallach对此做了大量研究,我只是凭直觉,因为数据集太大了