Python 了解doc2vec gensim的参数模型。推断向量
Python 了解doc2vec gensim的参数模型。推断向量,python,gensim,doc2vec,Python,Gensim,Doc2vec,这是否意味着我必须提供文档的标记化单词作为字符串列表,或者只是提供文档作为输入文档单词的字符串列表。请澄清培训期间,doc_单词应该是单个单词标记的字符串列表,相当于每个培训文档的单词。也就是说:它应该像训练数据一样进行预处理和标记化 (当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时,据我所知,这两个选项是相同的:Pythonlist,其中每个项都是字符串。) 关于推断向量()需要注意的其他重要事项: 推理总是从一个低幅度的随机向量开始,然后迭代地改进该向量
这是否意味着我必须提供文档的标记化单词作为字符串列表,或者只是提供文档作为输入文档单词的字符串列表。请澄清培训期间,
doc_单词
应该是单个单词标记的字符串列表,相当于每个培训文档的单词
。也就是说:它应该像训练数据一样进行预处理和标记化
(当您在问题中提出“将文档的单词标记为字符串列表或将文档简单地标记为字符串列表”时,据我所知,这两个选项是相同的:Pythonlist
,其中每个项都是字符串。)
关于推断向量()
需要注意的其他重要事项:
- 推理总是从一个低幅度的随机向量开始,然后迭代地改进该向量
- 模型不知道的单词将被默默忽略;在极端情况下,如果您提供一个包含所有未知单词的文本,则不会发生任何推断-但是由于上面的随机初始化,您仍然会得到一个向量
- 如果未指定
值,它将重用缓存在模型中的值(模型初始化或上次epochs
调用时留下的值)。你通常会希望它使用一些至少与训练中使用的时间相同的时间段——通常是10-20个,但有时更大。(而且,对于较短的文本,较大的值可能特别有用。)train()