Python gensim预训练模型能否用于doc2vec模型?

Python gensim预训练模型能否用于doc2vec模型?,python,gensim,word-embedding,doc2vec,Python,Gensim,Word Embedding,Doc2vec,我试图加载一个预训练的模型来测试少数段落的相似性 gensim的预训练模型只能用于单词级向量,还是也可以用于文档长度向量?目前列出的大多数模型(截至2020-11-21)都只是一组单词向量-允许按单个单词查找向量,但并不是允许后续训练的完整算法模型。(我看到的唯一例外是FastText模型,我不确定它可能是一个完整的FastText模型。但即使在那里,该模型也只报告已知单词的单词向量,或合成词汇表外单词的向量,而没有为较大文本创建向量的本机方法。) 从任何一组词向量中,都有一些简单的方法,可以为

我试图加载一个预训练的模型来测试少数段落的相似性


gensim的预训练模型只能用于单词级向量,还是也可以用于文档长度向量?

目前列出的大多数模型(截至2020-11-21)都只是一组单词向量-允许按单个单词查找向量,但并不是允许后续训练的完整算法模型。(我看到的唯一例外是FastText模型,我不确定它可能是一个完整的FastText模型。但即使在那里,该模型也只报告已知单词的单词向量,或合成词汇表外单词的向量,而没有为较大文本创建向量的本机方法。)

从任何一组词向量中,都有一些简单的方法,可以为较大的文本创建一个简单的向量(例如,将文本中的词的所有词向量平均起来),或者使用词向量在词集之间进行其他比较,以影响相似性(例如“”算法,在Gensim字向量集上可用为
wmdistance()

但是,通过gensim.downloader实用程序提供的这些模型中没有一个适用于内在地为较大文本创建向量的算法(例如
Doc2Vec


(另外:我强烈建议从原始位置明确下载模型作为数据,而不是使用
gensim.downloader
实用程序。它会掩盖过程的关键方面,包括为在正常代码版本控制和软件包安装过程外下载的每个数据集运行额外的“垫片”代码作为一个附加组件,这里的语料库可以用来手动训练模型吗?是的,列出的语料库已经被选择了,因为它们可能对训练模型有用。(但我还是建议明确地下载这些语料库,或者其他的,直接从它们的原始源下载)。