R包';word2vec';doc2vec函数

R包';word2vec';doc2vec函数,r,word2vec,doc2vec,R,Word2vec,Doc2vec,我是一名学生(计算机科学)。这是我在stackoverflow中的第一个问题。我真的很感激你的帮助!(我所指的包名为“word2vec”,这就是为什么标签/标题选择起来有点混乱。) 在doc2vec函数的描述中(此处),它表示: 文档向量是由向量空间的比例标准化的文档中的单词向量的总和。这个尺度是向量平均内积的平方比 元素 据我所知,doc2vec为每个段落增加了一个向量。在我看来,这似乎与上述描述不同 我对doc2vec的理解是正确的,还是足够接近? 而且:引用的实现是否与doc2vec算法类

我是一名学生(计算机科学)。这是我在stackoverflow中的第一个问题。我真的很感激你的帮助!(我所指的包名为“word2vec”,这就是为什么标签/标题选择起来有点混乱。)

在doc2vec函数的描述中(此处),它表示:

文档向量是由向量空间的比例标准化的文档中的单词向量的总和。这个尺度是向量平均内积的平方比 元素

据我所知,doc2vec为每个段落增加了一个向量。在我看来,这似乎与上述描述不同

我对doc2vec的理解是正确的,还是足够接近? 而且:引用的实现是否与doc2vec算法类似?

许多人使用“doc2vec”来指代Le&Mikolov在一篇论文中介绍的类似于2VEC的算法。该论文称该算法为“段落向量”,而没有使用“Doc2Vec”这个名称,并且确实像您所描述的那样,为每个文档引入了一个额外的向量。(也就是说,doc向量的训练有点像“浮动”伪词向量,这有助于该文档中每个训练预测的输入“上下文”。)

我不熟悉R或R
word2vec
包,但从您转发的文档来看,它确实not听起来像
doc2vec
函数实现了“段落向量”算法,其他人称之为“doc2vec”。特别是:

  • “段落向量”文档向量不是单词向量的简单和

  • “段落向量”文档向量由一个单独的类似word2vec的培训过程创建,该培训过程与培训同时创建任何必要的单词向量。具体来说:该过程通常不使用其他一些预先训练好的词向量作为输入,也不作为第一步创建词向量。(此外,“段落向量”文件的PV-DBOW选项根本不创建传统的单词向量。)


函数的名称似乎不好,如果您需要使用实际的“段落向量”算法,则需要查看其他地方。

请阅读我如何提出一个好问题,如何创建MCVE以及如何在R中提供一个最小的可复制示例。然后相应地编辑和改进您的问题。也就是说,从你的实际问题中抽象出来……如果其他人想知道的话:今天C++库的作者(R库只是一个‘包装器’)在Git页面上说,不会有一个“段落向量”实现。这是另一个指标,表明“doc2vec”函数不是您所期望的(或者至少不是我所期望的)。参考文献:如果有人还在寻找解决方案:考虑一下。它是由同一作者编写的(封装到一个不同的C++包)