Python Gensim save_word2vec_format()与model.save()的比较

Python Gensim save_word2vec_format()与model.save()的比较,python,nlp,gensim,word2vec,Python,Nlp,Gensim,Word2vec,我正在使用gensim版本0.12.4,并使用相同的文本和参数训练了两个独立的单词嵌入。训练后,我计算单词出现频率和向量长度之间的皮尔逊相关性。一个模型我使用save\u word2vec\u格式(fname,binary=True)进行训练,然后使用load\u word2vec\u格式加载;另一个模型我使用model.save(fname)进行训练,然后使用word2vec.load()加载。我知道word2vec算法是不确定的,因此结果会有所不同,但两个模型之间的相关性差异很大。在这个例子

我正在使用gensim版本
0.12.4
,并使用相同的文本和参数训练了两个独立的单词嵌入。训练后,我计算单词出现频率和向量长度之间的皮尔逊相关性。一个模型我使用
save\u word2vec\u格式(fname,binary=True)
进行训练,然后使用
load\u word2vec\u格式
加载;另一个模型我使用
model.save(fname)
进行训练,然后使用
word2vec.load()
加载。我知道word2vec算法是不确定的,因此结果会有所不同,但两个模型之间的相关性差异很大。在这个例子中我应该使用哪种方法?

编辑:这是一个注释。现在不知道怎么改,对不起


单词出现频率和向量长度之间的相关性我不太明白-你的向量不是都一样长吗?或者您不是指嵌入向量吗?

编辑:这是一个注释。现在不知道怎么改,对不起


单词出现频率和向量长度之间的相关性我不太明白-你的向量不是都一样长吗?或者您不是指嵌入向量吗?

很抱歉不清楚-我使用的是嵌入向量的大小。也就是说,
numpy.linalg.norm(model[word])
对不起,我没有弄清楚-我使用的是嵌入向量的大小。例如,
numpy.linalg.norm(model[word])