Python 如何在gensim中从自定义输入字典的word-to-vectors中获取相似单词

Python 如何在gensim中从自定义输入字典的word-to-vectors中获取相似单词,python,gensim,cosine-similarity,Python,Gensim,Cosine Similarity,我正在研究一个文档相似性问题。对于每个文档,我从预先训练好的单词嵌入模型中检索每个单词的向量,并对它们进行平均以获得文档向量。我最终得到了一本字典,比如说,我的字典,它将我收藏的每个文档映射到它的向量 我想把这本字典提供给gensim,对于每个文档,在“我的字典”中找到与它更接近的其他文档。我怎么能做到呢? 你可能想考虑从标题中重新整理你的问题,你正在寻找单词相似性,从描述中我想你想要文档相似性并在描述中增加一些细节。如果没有关于你想要什么和你尝试过什么的更详细的信息,就很难帮助你实现你想要的,

我正在研究一个文档相似性问题。对于每个文档,我从预先训练好的单词嵌入模型中检索每个单词的向量,并对它们进行平均以获得文档向量。我最终得到了一本字典,比如说,我的字典,它将我收藏的每个文档映射到它的向量


我想把这本字典提供给gensim,对于每个文档,在“我的字典”中找到与它更接近的其他文档。我怎么能做到呢?

你可能想考虑从标题中重新整理你的问题,你正在寻找单词相似性,从描述中我想你想要文档相似性并在描述中增加一些细节。如果没有关于你想要什么和你尝试过什么的更详细的信息,就很难帮助你实现你想要的,因为你可能想要做一大堆不同的事情。话虽如此,我想我可以大体上帮助你,即使不知道你想让gensim做什么。gensim非常强大,提供了许多不同的功能

假设您的词典已经是gensim格式,您可以按如下方式加载:

从gensim导入语料库 dictionary=corpora.dictionary.load'my_dict.dict' 现在,您可以将其与gensim一起使用,并根据您的心愿运行分析和建模。对于单词之间的相似性,您可以使用诸如gensim.word2vec.most_相似的'word_one'、'word_two'等预制函数

有关与经过训练的LDA模型的文档相似性,请参见

有关更详细的说明,请参见which使用余弦相似性作为文档之间相似性的度量

gensim有一系列不需要LDA的预制功能,例如gensim.similority.MatrixSimilarity,我建议您查看文档和示例

另外,为了避免一系列陷阱:有没有具体的理由让你自己平均向量,甚至是平均向量?您不需要这样做gensim有一些更复杂的方法可以为您实现文档到向量的映射,如models.doc2vec,并且可能会丢失有价值的信息