C++ 潜在狄利克雷分配如何处理词汇表中没有的单词_C++_Text Mining

C++ 潜在狄利克雷分配如何处理词汇表中没有的单词

c++

C++ 潜在狄利克雷分配如何处理词汇表中没有的单词,c++,text-mining,C++,Text Mining,对于潜在dirichlet分配，由于它假设一个固定的词汇包（我使用tf idf方法获得），我们如何处理不在词汇包中的单词，比如那些停止词我们是否仍然认为这样的词在文档中占有一席之地（换句话说，我们应该给这些词分配主题）还是忽略那些词？谢谢大家! 我假设出现这个问题是因为您训练LDA获取主题向量的语料库中没有您在测试文档中找到的单词（稍后用于获取主题分解的实验）。如果是这种情况，那么忽略新词是可以的，如果你的语料库中有大量的单词，例如，如果是英语语料库，那么100000+个单词的词汇量就足够大

对于潜在dirichlet分配，由于它假设一个固定的词汇包（我使用tf idf方法获得），我们如何处理不在词汇包中的单词，比如那些停止词

我们是否仍然认为这样的词在文档中占有一席之地（换句话说，我们应该给这些词分配主题）还是忽略那些词？

谢谢大家!

我假设出现这个问题是因为您训练LDA获取主题向量的语料库中没有您在测试文档中找到的单词（稍后用于获取主题分解的实验）。如果是这种情况，那么忽略新词是可以的，如果你的语料库中有大量的单词，例如，如果是英语语料库，那么100000+个单词的词汇量就足够大了

另一方面，如果上述情况并非如此，并且这些新词能够将一份文档与另一份文档区分开来，则建议您通过将这些新词包含在培训集中来运行LDA