Nlp gensim如何计算doc2vec段落向量_Nlp_Vectorization_Gensim_Word2vec_Doc2vec

Nlp gensim如何计算doc2vec段落向量

nlp

Nlp gensim如何计算doc2vec段落向量,nlp,vectorization,gensim,word2vec,doc2vec,Nlp,Vectorization,Gensim,Word2vec,Doc2vec,我要看完这份报纸它说 “paragraph向量和word向量是平均的或串联的预测上下文中的下一个单词。在实验中，我们使用串联作为组合向量的方法。” 串联或平均是如何工作的示例（如果第1段包含单词1和单词2）：同样从这张图片：据称：段落标记可以看作是另一个词。它充当一个记忆当前上下文中缺少的内容–或本段的主题。出于这个原因，我们通常称之为模型段落向量的分布式存储模型（PV-DM）段落标记是否等于等于上的的段落向量串联或平均是如何工作的你说得对。连接是：[0.1,0.2,

我要看完这份报纸

它说

“paragraph向量和word向量是平均的或串联的预测上下文中的下一个单词。在实验中，我们使用串联作为组合向量的方法。”

串联或平均是如何工作的

示例（如果第1段包含单词1和单词2）：

同样从这张图片：

据称：

段落标记可以看作是另一个词。它充当一个记忆当前上下文中缺少的内容–或本段的主题。出于这个原因，我们通常称之为模型段落向量的分布式存储模型（PV-DM）

段落标记是否等于等于上的

的段落向量

串联或平均是如何工作的
你说得对。连接是：[0.1,0.2,0.3,0.4,0.5,0.6]

段落标记是否等于等于on的段落向量
“段落标记”映射到称为“段落向量”的向量。它不同于标记“on”，也不同于标记“on”映射到的单词向量。
一系列文本的简单（有时有用）向量是文本单词向量的总和或平均值，但这不是“段落向量”论文中的“段落向量”
相反，段落向量是另一个向量，训练方式与单词向量类似，它也被调整以帮助单词预测。这些向量与字向量组合（或交织）以馈送预测模型。也就是说，平均值（在DM模式下）包括单词向量旁边的PV-它不从单词向量组成PV
在该图中，

上的

是被预测的目标词，在该图中是由紧密相邻的词和完整示例的PV组合而成的，这可能非正式地被认为是一个特殊的伪词，覆盖整个文本示例，参与真实词的所有滑动“窗口”
word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?