如何在python中获取gensim中单词的最近文档_Python_Gensim_Word2vec_Doc2vec

如何在python中获取gensim中单词的最近文档

python

如何在python中获取gensim中单词的最近文档,python,gensim,word2vec,doc2vec,Python,Gensim,Word2vec,Doc2vec,我使用doc2vec模型构建文档向量，如下所示 from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [de

我使用doc2vec模型构建文档向量，如下所示

from gensim.models import doc2vec
from collections import namedtuple

dataset = json.load(open(input_file))

docs = []
analyzedDocument = namedtuple('AnalyzedDocument', 'words tags')

for description in dataset:
    tags = [description[0]]
    words = description[1]
    docs.append(analyzedDocument(words, tags))

model = doc2vec.Doc2Vec(docs, vector_size = 100, window = 10, min_count = 1, workers = 4, epochs = 20)

我已经看到gensim doc2vec还包括单词向量。假设我为单词
深度学习创建了一个单词向量。我的问题是,；在python的gensim中，是否可以获取最接近深入学习的文档如果需要，我很乐意提供更多细节。一些Doc2Vec 模式将在“同一空间”中共同训练文档向量和单词向量。然后，如果您有一个用于'deep\u learning' 的单词向量，您可以要求该向量附近的文档，结果可能对您有用。例如： similar_docs = d2v_model.docvecs.most_similar( positive=[d2v_model.wv['deep_learning']] ) 但是：这只会和你的模型所学的一样好，就像你所想的那样一个已知良好文档的培训集适合类别“深度学习” （和其他类别）可能会更好-无论您是手工策划这些文档，还是尝试从其他来源（例如Wikipedia类别“”或您信任的其他策划/搜索结果集）进行引导将一个类别缩减为一个汇总点（一个向量）可能不如拥有一系列适合该类别的示例（许多点）。（相关文档可能不是一个围绕摘要点的整洁球体，而是填充文档向量高维空间的异形区域。）如果每个类别都有很多很好的示例，您可以训练分类器，然后根据训练过的类别对任何进一步未分类的文档进行标记或排序是的，这是可能的，因为这对word有效analogies@AnkushRasgon如果可能的话，我们怎么做