Nearest neighbor 文档相似性搜索-have和pysparNN

Nearest neighbor 文档相似性搜索-have和pysparNN,nearest-neighbor,annoy,Nearest Neighbor,Annoy,我正在试图找到一个解决方案,以查找文档的最近邻或近似最近邻 现在我使用tfidf作为文档的矢量表示。我的数据是相当大的N~百万。如果我在tfidf中使用“烦恼”,则内存不足。我想这是因为tfidf的高维度。我的词汇量大约是2000000个中文单词 然后我用pysparNN试了一下,效果很好。然而,我担心的是,随着数据量的增长,pysparNN会构建一个更大的索引,最终可能无法放入RAM中。这是ab问题,因为pysparNN不像Haven那样使用静态文件 我想知道什么可能是一个很好的解决方案,为文

我正在试图找到一个解决方案,以查找文档的最近邻或近似最近邻

现在我使用tfidf作为文档的矢量表示。我的数据是相当大的N~百万。如果我在tfidf中使用“烦恼”,则内存不足。我想这是因为tfidf的高维度。我的词汇量大约是2000000个中文单词

然后我用pysparNN试了一下,效果很好。然而,我担心的是,随着数据量的增长,pysparNN会构建一个更大的索引,最终可能无法放入RAM中。这是ab问题,因为pysparNN不像Haven那样使用静态文件


我想知道什么可能是一个很好的解决方案,为文本数据寻找最近的邻居。现在我正在研究使用gensim的烦恼索引,在文档嵌入方面,我不认为tfidf是一个很好的解决方案。 您可以尝试使用FastText、LASER、gensim、BERT、ELMO和其他工具来提取更复杂的文本文档嵌入,然后使用Have或faiss构建索引来检索相似性