Python 3.x 将字向量(从fastText)转换为在spaCy中使用失败
我用fastText生成了单词向量,并想将它们转换成spaCy模型(德语)。spaCy文档中说,向量“应该是一个以Word2Vec格式的制表符分隔的文件,其中第一列包含单词,其余列包含值。”因此,我将我的word向量转换为一个txt文件,使其具有完全相同的格式。然而,当我试着跑的时候Python 3.x 将字向量(从fastText)转换为在spaCy中使用失败,python-3.x,spacy,Python 3.x,Spacy,我用fastText生成了单词向量,并想将它们转换成spaCy模型(德语)。spaCy文档中说,向量“应该是一个以Word2Vec格式的制表符分隔的文件,其中第一列包含单词,其余列包含值。”因此,我将我的word向量转换为一个txt文件,使其具有完全相同的格式。然而,当我试着跑的时候 python-mspacy init model de/Users/vectors--vectors loc test_vectors.txt, 我得到以下ValueError:int()的文本无效,以10为底:“
python-mspacy init model de/Users/vectors--vectors loc test_vectors.txt
,我得到以下ValueError:int()的文本无效,以10为底:“ich” 我的文件格式不正确吗?我是不是错过了什么
操作系统:Windows 8.1 使用的Python版本:3.6.4 使用的spaCy版本:2.0.11
环境信息:windows cmd我从fasttext下载了一个fasttext模型(wiki.el.vec),然后使用以下gensim代码将其转换为txt格式:
from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format('wiki.el.vec', binary=False)
model.save_word2vec_format('wiki.el.txt', binary=False)
然后我跑:
python3 -m spacy init-model el . --vectors-loc wiki.el.txt
而且效果很好
用de替换el,用相应的de.vec文件替换最初的wiki.el.vec文件,并复制我遵循的步骤,我认为它会完成
希望有帮助 我从fasttext下载了一个fasttext模型(wiki.el.vec),然后使用以下gensim代码将其转换为txt格式:
from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format('wiki.el.vec', binary=False)
model.save_word2vec_format('wiki.el.txt', binary=False)
然后我跑:
python3 -m spacy init-model el . --vectors-loc wiki.el.txt
而且效果很好
用de替换el,用相应的de.vec文件替换最初的wiki.el.vec文件,并复制我遵循的步骤,我认为它会完成
希望有帮助