Stanford nlp 如何使用gensim load_word2vec_格式加载预先训练的手套模型?

Stanford nlp 如何使用gensim load_word2vec_格式加载预先训练的手套模型?,stanford-nlp,gensim,word2vec,word-embedding,Stanford Nlp,Gensim,Word2vec,Word Embedding,我正在尝试在gensim中加载一只经过预训练的手套作为word2vec模型。我已经从下载了手套文件。我正在使用以下脚本: from gensim import models model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True) 但是得到以下错误 ValueError Traceback (most recent call

我正在尝试在gensim中加载一只经过预训练的手套作为word2vec模型。我已经从下载了手套文件。我正在使用以下脚本:

from gensim import models
model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)
但是得到以下错误

ValueError                                Traceback (most recent call last)
<ipython-input-38-e0b48b51f433> in <module>()
      1 from gensim import models
----> 2 model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)

2 frames
/usr/local/lib/python3.6/dist-packages/gensim/models/utils_any2vec.py in <genexpr>(.0)
    171     with utils.smart_open(fname) as fin:
    172         header = utils.to_unicode(fin.readline(), encoding=encoding)
--> 173         vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format
    174         if limit:
    175             vocab_size = min(vocab_size, limit)

ValueError: invalid literal for int() with base 10: 'the'
ValueError回溯(最近一次调用)
在()
1来自gensim进口车型
---->2 model=models.KeyedVectors.load_word2vec_格式('glove.6B.300d.txt',binary=True)
2帧
/usr/local/lib/python3.6/dist-packages/gensim/models/utils_any2vec.py in(.0)
171,将utils.smart_open(fname)作为fin:
172 header=utils.to_unicode(fin.readline(),encoding=encoding)
-->173 vocab_size,vector_size=(header.split()中x的int(x))抛出无效的文件格式
174如果限制:
175声音大小=最小值(声音大小,限制)
ValueError:基数为10的int()的文本无效:“the”

根本问题是什么?gensim是否需要特定格式才能加载它?

手套格式与
load\u word2vec\u format()
支持的格式略有不同,缺少矢量计数和尺寸的第一行声明

包含一个
glove2word2vec
实用程序脚本,您可以运行一次以转换文件:

此外,从Gensim 4.0.0(当前在预发布测试中为LYU)开始,
load\u word2vec\u format()
方法将获得一个新的可选
no\u标头
参数:


如果设置为
no_header=True
,则该方法将从文件的初步扫描中推断计数/维度-因此它可以使用该选项读取手套文件-但代价是读取两次完整文件而不是一次。(因此,您可能仍然希望使用
.save_word2vec_format()
,或使用
glove2word2vec
脚本重新保存对象,以加快将来的加载速度。)

手套格式与
load_word2vec_format()
支持的格式略有不同,缺少向量计数和维度的第一行声明

包含一个
glove2word2vec
实用程序脚本,您可以运行一次以转换文件:

此外,从Gensim 4.0.0(当前在预发布测试中为LYU)开始,
load\u word2vec\u format()
方法将获得一个新的可选
no\u标头
参数:

如果设置为
no_header=True
,则该方法将从文件的初步扫描中推断计数/维度-因此它可以使用该选项读取手套文件-但代价是读取两次完整文件而不是一次。(因此,您可能仍然希望使用
.save_word2vec_format()
重新保存对象,或者使用
glove2word2vec
脚本,以加快将来的加载速度。)