Text 文档相似性的不同方法(LDA、LSA、余弦)

Text 文档相似性的不同方法(LDA、LSA、余弦),text,similarity,lda,trigonometry,lsa,Text,Similarity,Lda,Trigonometry,Lsa,我有一套简短的文件(每个文件1或2段)。我使用了三种不同的文档相似性方法: -tfidf矩阵的简单余弦相似性 -对整个语料库应用LDA,然后使用LDA模型为每个文档创建向量,然后应用余弦相似性。 -对整个语料库应用LSA,然后使用LSA模型为每个文档创建向量,然后应用余弦相似度 在实验的基础上,在不使用LDA或LSA的情况下,得到了tfidf矩阵的简单余弦相似性的较好结果。根据我所读到的,LDA或LSA应该会改善结果,但在我的情况下不是! 知道为什么LDA或LSA的结果更差吗? LDA和LSA在

我有一套简短的文件(每个文件1或2段)。我使用了三种不同的文档相似性方法: -tfidf矩阵的简单余弦相似性 -对整个语料库应用LDA,然后使用LDA模型为每个文档创建向量,然后应用余弦相似性。 -对整个语料库应用LSA,然后使用LSA模型为每个文档创建向量,然后应用余弦相似度

在实验的基础上,在不使用LDA或LSA的情况下,得到了tfidf矩阵的简单余弦相似性的较好结果。根据我所读到的,LDA或LSA应该会改善结果,但在我的情况下不是! 知道为什么LDA或LSA的结果更差吗? LDA和LSA在接受1000多轮培训时,发现某些文档之间的相似度高于90%,而这些文档完全无关

这有什么理由吗

感谢

我使用了实现,并获得了比TFIDF更好的结果,同样,对于LSI,我也使用了实现。如果您有自己的实现,请共享模型草图。为了获得更好的结果,还需要对语料库进行规范化