Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/spring-mvc/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 了解doc2vec gensim的参数模型。推断向量_Python_Gensim_Doc2vec - Fatal编程技术网

Python 了解doc2vec gensim的参数模型。推断向量

Python 了解doc2vec gensim的参数模型。推断向量,python,gensim,doc2vec,Python,Gensim,Doc2vec,这是否意味着我必须提供文档的标记化单词作为字符串列表,或者只是提供文档作为输入文档单词的字符串列表。请澄清培训期间,doc_单词应该是单个单词标记的字符串列表,相当于每个培训文档的单词。也就是说:它应该像训练数据一样进行预处理和标记化 (当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时,据我所知,这两个选项是相同的:Pythonlist,其中每个项都是字符串。) 关于推断向量()需要注意的其他重要事项: 推理总是从一个低幅度的随机向量开始,然后迭代地改进该向量


这是否意味着我必须提供文档的标记化单词作为字符串列表,或者只是提供文档作为输入文档单词的字符串列表。请澄清

培训期间,
doc_单词
应该是单个单词标记的字符串列表,相当于每个培训文档的
单词
。也就是说:它应该像训练数据一样进行预处理和标记化

(当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时,据我所知,这两个选项是相同的:Python
list
,其中每个项都是字符串。)

关于
推断向量()
需要注意的其他重要事项:

  • 推理总是从一个低幅度的随机向量开始,然后迭代地改进该向量

  • 模型不知道的单词将被默默忽略;在极端情况下,如果您提供一个包含所有未知单词的文本,则不会发生任何推断-但是由于上面的随机初始化,您仍然会得到一个向量

  • 如果未指定
    epochs
    值,它将重用缓存在模型中的值(模型初始化或上次
    train()
    调用时留下的值)。你通常会希望它使用一些至少与训练中使用的时间相同的时间段——通常是10-20个,但有时更大。(而且,对于较短的文本,较大的值可能特别有用。)


这是否回答了您的问题@你所引用的问题回答了我的疑问。非常感谢您的澄清将我的模型性能从36%调整到79%。我将输入作为整个文档提供,但我知道我们必须提供文档的标记。继续你的工作。