Python Gensim save_word2vec_format（）与model.save（）的比较_Python_Nlp_Gensim_Word2vec

Python Gensim save_word2vec_format（）与model.save（）的比较

python nlp

Python Gensim save_word2vec_format（）与model.save（）的比较,python,nlp,gensim,word2vec,Python,Nlp,Gensim,Word2vec,我正在使用gensim版本0.12.4，并使用相同的文本和参数训练了两个独立的单词嵌入。训练后，我计算单词出现频率和向量长度之间的皮尔逊相关性。一个模型我使用save\u word2vec\u格式（fname，binary=True）进行训练，然后使用load\u word2vec\u格式加载；另一个模型我使用model.save（fname）进行训练，然后使用word2vec.load（）加载。我知道word2vec算法是不确定的，因此结果会有所不同，但两个模型之间的相关性差异很大。在这个例子

我正在使用gensim版本

0.12.4

，并使用相同的文本和参数训练了两个独立的单词嵌入。训练后，我计算单词出现频率和向量长度之间的皮尔逊相关性。一个模型我使用

save\u word2vec\u格式（fname，binary=True）

进行训练，然后使用

load\u word2vec\u格式

加载；另一个模型我使用

model.save（fname）

进行训练，然后使用

word2vec.load（）

加载。我知道word2vec算法是不确定的，因此结果会有所不同，但两个模型之间的相关性差异很大。在这个例子中我应该使用哪种方法？

编辑：这是一个注释。现在不知道怎么改，对不起

单词出现频率和向量长度之间的相关性我不太明白-你的向量不是都一样长吗？或者您不是指嵌入向量吗？

编辑：这是一个注释。现在不知道怎么改，对不起

单词出现频率和向量长度之间的相关性我不太明白-你的向量不是都一样长吗？或者您不是指嵌入向量吗？

很抱歉不清楚-我使用的是嵌入向量的大小。也就是说，

numpy.linalg.norm（model[word]）

对不起，我没有弄清楚-我使用的是嵌入向量的大小。例如，

numpy.linalg.norm（model[word]）