Nlp Doc2vec预测-我们是平均单词数还是新段落的段落ID?

Nlp Doc2vec预测-我们是平均单词数还是新段落的段落ID?,nlp,word2vec,word-embedding,doc2vec,Nlp,Word2vec,Word Embedding,Doc2vec,我知道您在培训期间将段落ID视为doc2vec(DM方法,图左)中的新词。训练输出是上下文单词。在一个模型被训练之后,假设我想要得到一个新文档 我是否将每个单词输入网络,然后对其进行平均以获得嵌入效果?还是有别的办法 我可以把这个反馈给gensim,但我正在努力理解它是如何工作的 在模型批量训练过程中,候选文档向量逐渐被推到更好地预测文本的单词,就像单词向量训练一样。因此,在培训结束时,您将获得文本旁边提供的所有标识符的文档向量 您可以通过在培训期间提供的标识符(在gensim中称为“docta

我知道您在培训期间将段落ID视为doc2vec(DM方法,图左)中的新词。训练输出是上下文单词。在一个模型被训练之后,假设我想要得到一个新文档

我是否将每个单词输入网络,然后对其进行平均以获得嵌入效果?还是有别的办法

我可以把这个反馈给gensim,但我正在努力理解它是如何工作的


在模型批量训练过程中,候选文档向量逐渐被推到更好地预测文本的单词,就像单词向量训练一样。因此,在培训结束时,您将获得文本旁边提供的所有标识符的文档向量

您可以通过在培训期间提供的标识符(在
gensim中称为“doctag”)的doct样式索引查找,从
gensim
Doc2Vec
模型访问这些文件:
model.docvecs[tag]`

训练后,为了获得新文本的文档向量,使用了一个推理过程。模型被冻结,并为文本形成一个新的随机候选向量(就像那些开始批量训练文本的向量一样)。然后,以一种完全类似于训练的方式,对其进行增量推送,以便更好地预测单词——但只有这一个新的候选向量发生了变化。(所有模型内部权重保持不变。)


您可以通过
推断向量()
方法计算这些新向量,该方法获取了一个单词标记列表,这些单词标记应该像培训期间提供的文本一样经过预处理:
模型。推断向量(单词)

我认为使用上述方法冻结模型,只有随机的新段落向量和再培训应该更有效,但我看到一种说法,简单地使用句子中所有单词向量的平均值在某些情况下更有效