Text 文档相似性的不同方法（LDA、LSA、余弦）_Text_Similarity_Lda_Trigonometry_Lsa

Text 文档相似性的不同方法（LDA、LSA、余弦）

text

Text 文档相似性的不同方法（LDA、LSA、余弦）,text,similarity,lda,trigonometry,lsa,Text,Similarity,Lda,Trigonometry,Lsa,我有一套简短的文件（每个文件1或2段）。我使用了三种不同的文档相似性方法： -tfidf矩阵的简单余弦相似性 -对整个语料库应用LDA，然后使用LDA模型为每个文档创建向量，然后应用余弦相似性。 -对整个语料库应用LSA，然后使用LSA模型为每个文档创建向量，然后应用余弦相似度在实验的基础上，在不使用LDA或LSA的情况下，得到了tfidf矩阵的简单余弦相似性的较好结果。根据我所读到的，LDA或LSA应该会改善结果，但在我的情况下不是！知道为什么LDA或LSA的结果更差吗？ LDA和LSA在

我有一套简短的文件（每个文件1或2段）。我使用了三种不同的文档相似性方法： -tfidf矩阵的简单余弦相似性 -对整个语料库应用LDA，然后使用LDA模型为每个文档创建向量，然后应用余弦相似性。 -对整个语料库应用LSA，然后使用LSA模型为每个文档创建向量，然后应用余弦相似度

在实验的基础上，在不使用LDA或LSA的情况下，得到了tfidf矩阵的简单余弦相似性的较好结果。根据我所读到的，LDA或LSA应该会改善结果，但在我的情况下不是！知道为什么LDA或LSA的结果更差吗？ LDA和LSA在接受1000多轮培训时，发现某些文档之间的相似度高于90%，而这些文档完全无关

这有什么理由吗

感谢

我使用了实现，并获得了比TFIDF更好的结果，同样，对于LSI，我也使用了实现。如果您有自己的实现，请共享模型草图。为了获得更好的结果，还需要对语料库进行规范化