Nlp gensim如何计算doc2vec段落向量

Nlp gensim如何计算doc2vec段落向量,nlp,vectorization,gensim,word2vec,doc2vec,Nlp,Vectorization,Gensim,Word2vec,Doc2vec,我要看完这份报纸 它说 “paragraph向量和word向量是平均的或串联的 预测上下文中的下一个单词。在实验中,我们使用 串联作为组合向量的方法。” 串联或平均是如何工作的 示例(如果第1段包含单词1和单词2): 同样从这张图片: 据称: 段落标记可以看作是另一个词。它充当一个 记忆当前上下文中缺少的内容–或 本段的主题。出于这个原因,我们通常称之为模型 段落向量的分布式存储模型(PV-DM) 段落标记是否等于等于上的的段落向量 串联或平均是如何工作的 你说得对。连接是:[0.1,0.2,

我要看完这份报纸

它说

“paragraph向量和word向量是平均的或串联的 预测上下文中的下一个单词。在实验中,我们使用 串联作为组合向量的方法。”

串联或平均是如何工作的

示例(如果第1段包含单词1和单词2):

同样从这张图片:

据称:

段落标记可以看作是另一个词。它充当一个 记忆当前上下文中缺少的内容–或 本段的主题。出于这个原因,我们通常称之为模型 段落向量的分布式存储模型(PV-DM)

段落标记是否等于等于上的
的段落向量

串联或平均是如何工作的

你说得对。连接是:
[0.1,0.2,0.3,0.4,0.5,0.6]

段落标记是否等于等于on的段落向量

“段落标记”映射到称为“段落向量”的向量。它不同于标记“on”,也不同于标记“on”映射到的单词向量。

一系列文本的简单(有时有用)向量是文本单词向量的总和或平均值,但这不是“段落向量”论文中的“段落向量”

相反,段落向量是另一个向量,训练方式与单词向量类似,它也被调整以帮助单词预测。这些向量与字向量组合(或交织)以馈送预测模型。也就是说,平均值(在DM模式下)包括单词向量旁边的PV-它不从单词向量组成PV

在该图中,
上的
是被预测的目标词,在该图中是由紧密相邻的词和完整示例的PV组合而成的,这可能非正式地被认为是一个特殊的伪词,覆盖整个文本示例,参与真实词的所有滑动“窗口”

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?