C++ 潜在狄利克雷分配如何处理词汇表中没有的单词

C++ 潜在狄利克雷分配如何处理词汇表中没有的单词,c++,text-mining,C++,Text Mining,对于潜在dirichlet分配,由于它假设一个固定的词汇包(我使用tf idf方法获得),我们如何处理不在词汇包中的单词,比如那些停止词 我们是否仍然认为这样的词在文档中占有一席之地(换句话说,我们应该给这些词分配主题)还是忽略那些词? 谢谢大家! 我假设出现这个问题是因为您训练LDA获取主题向量的语料库中没有您在测试文档中找到的单词(稍后用于获取主题分解的实验)。如果是这种情况,那么忽略新词是可以的,如果你的语料库中有大量的单词,例如,如果是英语语料库,那么100000+个单词的词汇量就足够大

对于潜在dirichlet分配,由于它假设一个固定的词汇包(我使用tf idf方法获得),我们如何处理不在词汇包中的单词,比如那些停止词

我们是否仍然认为这样的词在文档中占有一席之地(换句话说,我们应该给这些词分配主题)还是忽略那些词?
谢谢大家!

我假设出现这个问题是因为您训练LDA获取主题向量的语料库中没有您在测试文档中找到的单词(稍后用于获取主题分解的实验)。如果是这种情况,那么忽略新词是可以的,如果你的语料库中有大量的单词,例如,如果是英语语料库,那么100000+个单词的词汇量就足够大了

另一方面,如果上述情况并非如此,并且这些新词能够将一份文档与另一份文档区分开来,则建议您通过将这些新词包含在培训集中来运行LDA