Nearest neighbor 文档相似性搜索-have和pysparNN_Nearest Neighbor_Annoy

Nearest neighbor 文档相似性搜索-have和pysparNN

Nearest neighbor 文档相似性搜索-have和pysparNN,nearest-neighbor,annoy,Nearest Neighbor,Annoy,我正在试图找到一个解决方案，以查找文档的最近邻或近似最近邻现在我使用tfidf作为文档的矢量表示。我的数据是相当大的N~百万。如果我在tfidf中使用“烦恼”，则内存不足。我想这是因为tfidf的高维度。我的词汇量大约是2000000个中文单词然后我用pysparNN试了一下，效果很好。然而，我担心的是，随着数据量的增长，pysparNN会构建一个更大的索引，最终可能无法放入RAM中。这是ab问题，因为pysparNN不像Haven那样使用静态文件我想知道什么可能是一个很好的解决方案，为文

我正在试图找到一个解决方案，以查找文档的最近邻或近似最近邻

现在我使用tfidf作为文档的矢量表示。我的数据是相当大的N~百万。如果我在tfidf中使用“烦恼”，则内存不足。我想这是因为tfidf的高维度。我的词汇量大约是2000000个中文单词

然后我用pysparNN试了一下，效果很好。然而，我担心的是，随着数据量的增长，pysparNN会构建一个更大的索引，最终可能无法放入RAM中。这是ab问题，因为pysparNN不像Haven那样使用静态文件

我想知道什么可能是一个很好的解决方案，为文本数据寻找最近的邻居。现在我正在研究使用gensim的烦恼索引，在文档嵌入方面，我不认为tfidf是一个很好的解决方案。您可以尝试使用FastText、LASER、gensim、BERT、ELMO和其他工具来提取更复杂的文本文档嵌入，然后使用Have或faiss构建索引来检索相似性