Python Fasttext.vec和.bin文件之间的差异
我最近下载了fasttext预训练英语模型。我有两个文件:Python Fasttext.vec和.bin文件之间的差异,python,nlp,deep-learning,word2vec,fasttext,Python,Nlp,Deep Learning,Word2vec,Fasttext,我最近下载了fasttext预训练英语模型。我有两个文件: wiki.en.vec wiki.en.bin 我不确定这两个文件之间的区别是什么?正如 model.vec是一个包含单词向量的文本文件,每行一个。 model.bin是一个包含模型参数的二进制文件 以及字典和所有超参数 换句话说,.vec文件格式与.txt文件格式相同,您可以在其他应用程序中使用它(例如,在FastText模型和Word2Vec模型之间交换数据,因为.vec文件类似于Word2Vec生成的.txt文件)。如果要继续训练
model.vec
是一个包含单词向量的文本文件,每行一个。
model.bin
是一个包含模型参数的二进制文件
以及字典和所有超参数
换句话说,
.vec
文件格式与.txt
文件格式相同,您可以在其他应用程序中使用它(例如,在FastText模型和Word2Vec模型之间交换数据,因为.vec
文件类似于Word2Vec生成的.txt
文件)。如果要继续训练向量或重新启动优化,可以使用.bin
文件。该.vec
文件仅包含聚合的纯文本字向量。.bin
文件还包含模型参数,关键是所有n-gram的向量
因此,如果您想对没有经过n-gram训练的单词(FastText著名的“子单词信息”)进行编码,您需要找到一个能够处理FastText
.bin
文件的API(但是,大多数只支持.vec
文件…).我同意突出显示的部分,但我们还可以在其他数据/语料库上进一步训练.vec文件。您实际如何使用.bin
文件?我尝试了open(FILENAME,“rb”)
,但不确定如何在that@information_interchange您找到这个问题的答案了吗?请查看Python API的官方文档:@information\u interchange you can do model=fasttext.load\u model(“embedded.bin”)加载模型对象。