Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/azure/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 如何测试文本集群应用程序?_Nlp_Data Mining_Text Mining - Fatal编程技术网

Nlp 如何测试文本集群应用程序?

Nlp 如何测试文本集群应用程序?,nlp,data-mining,text-mining,Nlp,Data Mining,Text Mining,我正在开发一个应用程序,根据主题对文档进行集群。我正在使用LDA(潜在Dirichlet分配)算法。现在原型已经准备好了,并且有了一些结果 我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点: 一个主题中的文档实际上就是关于这个主题的 这些主题彼此有很大的不同 有什么最佳实践可以做到这一点吗?除了我的主观评价,还有什么客观指标吗?1.经过训练,我们得到主题词矩阵p(z | w),每一行都是单词的prob分配给主题,因此你可以打印出

我正在开发一个应用程序,根据主题对文档进行集群。我正在使用LDA(潜在Dirichlet分配)算法。现在原型已经准备好了,并且有了一些结果

我正在寻找一个合理的方法来测试它。我目前的做法是分别打印出主题及其相关文件。并手动评估它们。我可以想到以下测试点:

  • 一个主题中的文档实际上就是关于这个主题的
  • 这些主题彼此有很大的不同

有什么最佳实践可以做到这一点吗?除了我的主观评价,还有什么客观指标吗?

1.经过训练,我们得到主题词矩阵p(z | w),每一行都是单词的prob分配给主题,因此你可以打印出每个主题的前N个单词,并对它们进行评估,这将很容易与文档评估主题进行比较

2.我想你在这里要问的问题是训练是否收敛,我只是评估p(z | w),当p(z | w)稳定时,这意味着模型收敛于我们选择的参数(alpha,beta,topic | num)。当我们调整topic num时,我们可以得到关于所有topic num的稳定P(z | w),我们选择topic num作为最大P(z | w)。你可以参考报纸

3.至于如何调整alpha-beta,以及如何高效地调整topic_num,Hanna M.Wallach对此做了大量研究,我只是凭直觉,因为数据集太大了