R包'；word2vec'；doc2vec函数_R_Word2vec_Doc2vec

R包'；word2vec'；doc2vec函数

R包'；word2vec'；doc2vec函数,r,word2vec,doc2vec,R,Word2vec,Doc2vec,我是一名学生（计算机科学）。这是我在stackoverflow中的第一个问题。我真的很感激你的帮助！（我所指的包名为“word2vec”，这就是为什么标签/标题选择起来有点混乱。）在doc2vec函数的描述中（此处），它表示：文档向量是由向量空间的比例标准化的文档中的单词向量的总和。这个尺度是向量平均内积的平方比元素据我所知，doc2vec为每个段落增加了一个向量。在我看来，这似乎与上述描述不同我对doc2vec的理解是正确的，还是足够接近？而且：引用的实现是否与doc2vec算法类

我是一名学生（计算机科学）。这是我在stackoverflow中的第一个问题。我真的很感激你的帮助！（我所指的包名为“word2vec”，这就是为什么标签/标题选择起来有点混乱。）

在doc2vec函数的描述中（此处），它表示：

文档向量是由向量空间的比例标准化的文档中的单词向量的总和。这个尺度是向量平均内积的平方比元素

据我所知，doc2vec为每个段落增加了一个向量。在我看来，这似乎与上述描述不同

我对doc2vec的理解是正确的，还是足够接近？而且：引用的实现是否与doc2vec算法类似？

许多人使用“doc2vec”来指代Le&Mikolov在一篇论文中介绍的类似于2VEC的算法。该论文称该算法为“段落向量”，而没有使用“Doc2Vec”这个名称，并且确实像您所描述的那样，为每个文档引入了一个额外的向量。（也就是说，doc向量的训练有点像“浮动”伪词向量，这有助于该文档中每个训练预测的输入“上下文”。）

我不熟悉R或R

word2vec

包，但从您转发的文档来看，它确实not听起来像

doc2vec

函数实现了“段落向量”算法，其他人称之为“doc2vec”。特别是：

“段落向量”文档向量不是单词向量的简单和
“段落向量”文档向量由一个单独的类似word2vec的培训过程创建，该培训过程与培训同时创建任何必要的单词向量。具体来说：该过程通常不使用其他一些预先训练好的词向量作为输入，也不作为第一步创建词向量。（此外，“段落向量”文件的PV-DBOW选项根本不创建传统的单词向量。）

函数的名称似乎不好，如果您需要使用实际的“段落向量”算法，则需要查看其他地方。

请阅读我如何提出一个好问题，如何创建MCVE以及如何在R中提供一个最小的可复制示例。然后相应地编辑和改进您的问题。也就是说，从你的实际问题中抽象出来……如果其他人想知道的话：今天C++库的作者（R库只是一个‘包装器’）在Git页面上说，不会有一个“段落向量”实现。这是另一个指标，表明“doc2vec”函数不是您所期望的（或者至少不是我所期望的）。参考文献：如果有人还在寻找解决方案：考虑一下。它是由同一作者编写的（封装到一个不同的C++包）