Python 3.x Gensim doc2vec最类似于获取完整文档

Python 3.x Gensim doc2vec最类似于获取完整文档,python-3.x,nlp,text-mining,gensim,doc2vec,Python 3.x,Nlp,Text Mining,Gensim,Doc2vec,在Gensim的doc2vec实现中,Gensim.models.keyedvectors.Doc2VecKeyedVectors.most_simular返回与查询文档最相似的文档的标记和余弦相似性。如果我想要的是实际的文档本身而不是标签呢?是否有一种方法可以直接执行此操作,而无需搜索与最相似的返回的标记相关联的文档 此外,是否有相关文件?我似乎找不到Gensim一半类的文档。Doc2Vec类不能作为以原始格式存储原始文档的完整文档数据库。这需要很多额外的复杂性和状态 相反,您只需以培训所需的

在Gensim的doc2vec实现中,
Gensim.models.keyedvectors.Doc2VecKeyedVectors.most_simular
返回与查询文档最相似的文档的标记和余弦相似性。如果我想要的是实际的文档本身而不是标签呢?是否有一种方法可以直接执行此操作,而无需搜索与
最相似的
返回的标记相关联的文档


此外,是否有相关文件?我似乎找不到Gensim一半类的文档。

Doc2Vec
类不能作为以原始格式存储原始文档的完整文档数据库。这需要很多额外的复杂性和状态

相反,您只需以培训所需的标记化格式呈现文档及其特定标记,模型只学习并保留它们的向量表示

如果需要查找原始文档,则必须维护自己的(标记->文档)查找功能–许多项目都已经将其作为文档的原始源


Doc2Vec
类文档位于,但查看
gensim
docs/notebooks
目录中包含的Jupyter笔记本示例也可能会有所帮助,但也可以在以下位置在线查看:

Doc2Vec
相关的三个笔记本电脑的文件名以
Doc2Vec-
开头