Python 了解doc2vec gensim的参数模型。推断向量_Python_Gensim_Doc2vec

Python 了解doc2vec gensim的参数模型。推断向量

python

Python 了解doc2vec gensim的参数模型。推断向量,python,gensim,doc2vec,Python,Gensim,Doc2vec,这是否意味着我必须提供文档的标记化单词作为字符串列表，或者只是提供文档作为输入文档单词的字符串列表。请澄清培训期间，doc_单词应该是单个单词标记的字符串列表，相当于每个培训文档的单词。也就是说：它应该像训练数据一样进行预处理和标记化（当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时，据我所知，这两个选项是相同的：Pythonlist，其中每个项都是字符串。）关于推断向量（）需要注意的其他重要事项：推理总是从一个低幅度的随机向量开始，然后迭代地改进该向量

这是否意味着我必须提供文档的标记化单词作为字符串列表，或者只是提供文档作为输入文档单词的字符串列表。请澄清

培训期间，

doc_单词

应该是单个单词标记的字符串列表，相当于每个培训文档的

单词

。也就是说：它应该像训练数据一样进行预处理和标记化

（当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时，据我所知，这两个选项是相同的：Python

list

，其中每个项都是字符串。）

关于

推断向量（）

需要注意的其他重要事项：

推理总是从一个低幅度的随机向量开始，然后迭代地改进该向量
模型不知道的单词将被默默忽略；在极端情况下，如果您提供一个包含所有未知单词的文本，则不会发生任何推断-但是由于上面的随机初始化，您仍然会得到一个向量
如果未指定
```
epochs
```
值，它将重用缓存在模型中的值（模型初始化或上次
```
train（）
```
调用时留下的值）。你通常会希望它使用一些至少与训练中使用的时间相同的时间段——通常是10-20个，但有时更大。（而且，对于较短的文本，较大的值可能特别有用。）

这是否回答了您的问题@你所引用的问题回答了我的疑问。非常感谢您的澄清将我的模型性能从36%调整到79%。我将输入作为整个文档提供，但我知道我们必须提供文档的标记。继续你的工作。