Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/ssl/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 基于mallet的主题建模_Nlp_Text Mining_Topic Modeling_Mallet - Fatal编程技术网

Nlp 基于mallet的主题建模

Nlp 基于mallet的主题建模,nlp,text-mining,topic-modeling,mallet,Nlp,Text Mining,Topic Modeling,Mallet,我试图用Mallet进行主题建模,但有一个问题 我如何知道何时需要重建模型?例如,我从web上抓取了大量文档,使用Mallet提供的主题建模,我可能能够创建模型并推断文档。但随着时间的推移,随着我搜集到的新数据,新的主题可能会出现。在这种情况下,我如何知道是否应该从开始到当前重建模型 我正考虑对每个月爬网的文档这样做。有人能给点建议吗 那么,主题建模是否更适合固定主题数量(输入参数k,主题数量)下的文本。如果没有,我如何确定使用哪个数字?您的问题的答案在很大程度上取决于您使用的数据类型和语料库的

我试图用Mallet进行主题建模,但有一个问题

我如何知道何时需要重建模型?例如,我从web上抓取了大量文档,使用Mallet提供的主题建模,我可能能够创建模型并推断文档。但随着时间的推移,随着我搜集到的新数据,新的主题可能会出现。在这种情况下,我如何知道是否应该从开始到当前重建模型

我正考虑对每个月爬网的文档这样做。有人能给点建议吗


那么,主题建模是否更适合固定主题数量(输入参数k,主题数量)下的文本。如果没有,我如何确定使用哪个数字?

您的问题的答案在很大程度上取决于您使用的数据类型和语料库的大小

关于频率,恐怕您只需要估计数据以有意义的方式更改的频率,并以该速率重新建模。你可以从一周开始,看看新数据是否会导致一个明显不同的模型。如果没有,尝试两周,以此类推

您选择的主题数量由您在模型中查找的内容决定。数字越大,结果的粒度越细。如果你想大致了解语料库中的内容,你可以选择10个主题。为了更仔细地观察,您可以使用200或其他适当高的数字

我希望这有帮助