Machine learning 为预训练word2vec模型添加更多词汇_Machine Learning_Nlp_Data Mining_Gensim_Word2vec

Machine learning 为预训练word2vec模型添加更多词汇

machine-learning nlp

Machine learning 为预训练word2vec模型添加更多词汇,machine-learning,nlp,data-mining,gensim,word2vec,Machine Learning,Nlp,Data Mining,Gensim,Word2vec,请帮助我更正此问题，或者是否有其他方法来完成此任务 build_vocab（）需要一个文本列表（标记列表）——您只是给它一个单词列表，因此每个单词都被视为一个文本，代码中可能添加的唯一新词是单个字母而且： min\u count=1通常不利于矢量质量 epochs=150比通常的5-10次迭代要高得多-稍微高一些，这对小数据集可能有帮助，但100+太多了逐步增加词汇/培训并不一定会改善您的模型；特别是当您使用不包括整个词汇表（和使用范围）的新示例进行培训时，模型中只有一些单词会得到调整，并

请帮助我更正此问题，或者是否有其他方法来完成此任务

build_vocab（）

需要一个文本列表（标记列表）——您只是给它一个单词列表，因此每个单词都被视为一个文本，代码中可能添加的唯一新词是单个字母

而且：

min\u count=1通常不利于矢量质量


epochs=150
比通常的5-10次迭代要高得多-稍微高一些，这对小数据集可能有帮助，但100+太多了
逐步增加词汇/培训并不一定会改善您的模型；特别是当您使用不包括整个词汇表（和使用范围）的新示例进行培训时，模型中只有一些单词会得到调整，并且可能会与仅在早期培训中知道的其他单词不一致


当出现新文本（包括新词）时，最可靠的方法是重新训练整个模型，将所有新旧文本混合在一起。这最好地保证了所有单词之间的同等关注和协调
如果您使用新文本进行增量培训，无论是否扩展了词汇表，您都应该仔细观察您对整体模型质量的自定义评估，以确保您所做的有帮助
 欢迎来到StackOverflow。请不要将代码作为文本而不是图像发布，以便搜索