Nlp Doc2vec预测-我们是平均单词数还是新段落的段落ID？_Nlp_Word2vec_Word Embedding_Doc2vec

Nlp Doc2vec预测-我们是平均单词数还是新段落的段落ID？

nlp

Nlp Doc2vec预测-我们是平均单词数还是新段落的段落ID？,nlp,word2vec,word-embedding,doc2vec,Nlp,Word2vec,Word Embedding,Doc2vec,我知道您在培训期间将段落ID视为doc2vec（DM方法，图左）中的新词。训练输出是上下文单词。在一个模型被训练之后，假设我想要得到一个新文档我是否将每个单词输入网络，然后对其进行平均以获得嵌入效果？还是有别的办法我可以把这个反馈给gensim，但我正在努力理解它是如何工作的在模型批量训练过程中，候选文档向量逐渐被推到更好地预测文本的单词，就像单词向量训练一样。因此，在培训结束时，您将获得文本旁边提供的所有标识符的文档向量您可以通过在培训期间提供的标识符（在gensim中称为“docta

我知道您在培训期间将段落ID视为doc2vec（DM方法，图左）中的新词。训练输出是上下文单词。在一个模型被训练之后，假设我想要得到一个新文档

我是否将每个单词输入网络，然后对其进行平均以获得嵌入效果？还是有别的办法

我可以把这个反馈给gensim，但我正在努力理解它是如何工作的

在模型批量训练过程中，候选文档向量逐渐被推到更好地预测文本的单词，就像单词向量训练一样。因此，在培训结束时，您将获得文本旁边提供的所有标识符的文档向量

您可以通过在培训期间提供的标识符（在

gensim中称为“doctag”）的doct样式索引查找，从gensim
Doc2Vec
模型访问这些文件：

model.docvecs[tag]`

训练后，为了获得新文本的文档向量，使用了一个推理过程。模型被冻结，并为文本形成一个新的随机候选向量（就像那些开始批量训练文本的向量一样）。然后，以一种完全类似于训练的方式，对其进行增量推送，以便更好地预测单词——但只有这一个新的候选向量发生了变化。（所有模型内部权重保持不变。）

您可以通过

推断向量（）

方法计算这些新向量，该方法获取了一个单词标记列表，这些单词标记应该像培训期间提供的文本一样经过预处理：

模型。推断向量（单词）

我认为使用上述方法冻结模型，只有随机的新段落向量和再培训应该更有效，但我看到一种说法，简单地使用句子中所有单词向量的平均值在某些情况下更有效