Machine learning 为预训练word2vec模型添加更多词汇

Machine learning 为预训练word2vec模型添加更多词汇,machine-learning,nlp,data-mining,gensim,word2vec,Machine Learning,Nlp,Data Mining,Gensim,Word2vec,请帮助我更正此问题,或者是否有其他方法来完成此任务 build_vocab()需要一个文本列表(标记列表)——您只是给它一个单词列表,因此每个单词都被视为一个文本,代码中可能添加的唯一新词是单个字母 而且: min\u count=1通常不利于矢量质量 epochs=150比通常的5-10次迭代要高得多-稍微高一些,这对小数据集可能有帮助,但100+太多了 逐步增加词汇/培训并不一定会改善您的模型;特别是当您使用不包括整个词汇表(和使用范围)的新示例进行培训时,模型中只有一些单词会得到调整,并

请帮助我更正此问题,或者是否有其他方法来完成此任务

build_vocab()
需要一个文本列表(标记列表)——您只是给它一个单词列表,因此每个单词都被视为一个文本,代码中可能添加的唯一新词是单个字母

而且:

  • min\u count=1通常不利于矢量质量
  • epochs=150
    比通常的5-10次迭代要高得多-稍微高一些,这对小数据集可能有帮助,但100+太多了
  • 逐步增加词汇/培训并不一定会改善您的模型;特别是当您使用不包括整个词汇表(和使用范围)的新示例进行培训时,模型中只有一些单词会得到调整,并且可能会与仅在早期培训中知道的其他单词不一致
当出现新文本(包括新词)时,最可靠的方法是重新训练整个模型,将所有新旧文本混合在一起。这最好地保证了所有单词之间的同等关注和协调


如果您使用新文本进行增量培训,无论是否扩展了词汇表,您都应该仔细观察您对整体模型质量的自定义评估,以确保您所做的有帮助

欢迎来到StackOverflow。请不要将代码作为文本而不是图像发布,以便搜索