Python 微调预先训练好的word2vec谷歌新闻

Python 微调预先训练好的word2vec谷歌新闻,python,gensim,word2vec,google-news,fasttext,Python,Gensim,Word2vec,Google News,Fasttext,我目前使用的Word2Vec模型是在谷歌新闻语料库上训练的(来自) 由于2013年之前我只接受新闻培训,因此我需要更新向量,并根据2013年之后的新闻在词汇表中添加新词 假设2013年后我有一个新的新闻语料库。我可以重新训练、微调或更新Google News Word2Vec模型吗?可以使用Gensim完成吗?可以使用FastText完成吗?您可以查看以下内容: 它的功能与您想要的完全相同: 以下是链接上的内容: 逐步训练分类模型或词向量模型 ./fasttext[supervised | s

我目前使用的Word2Vec模型是在谷歌新闻语料库上训练的(来自) 由于2013年之前我只接受新闻培训,因此我需要更新向量,并根据2013年之后的新闻在词汇表中添加新词


假设2013年后我有一个新的新闻语料库。我可以重新训练、微调或更新Google News Word2Vec模型吗?可以使用Gensim完成吗?可以使用FastText完成吗?

您可以查看以下内容:

它的功能与您想要的完全相同: 以下是链接上的内容:

逐步训练分类模型或词向量模型

./fasttext[supervised | skipgram | cbow]-输入train.data-输入model trained.model.bin-输出重新训练[其他选项]-增量

-incr代表增量训练

在训练单词嵌入时,可以从头开始,每次都使用所有数据,或者只使用新数据。对于分类,可以使用预先训练好的单词嵌入所有数据,或者只使用新的数据,在不改变单词嵌入的情况下,从头开始对其进行训练


增量训练实际上意味着,用我们以前得到的数据完成训练模型,并用我们得到的新数据重新训练模型,而不是从头开始。

是的,你可以。我最近一直在做这个

  • word2vec
  • 手套
编辑:手套在训练时会产生计算和存储
共现矩阵的开销。培训
word2vec
相对容易