Python H2O Word2Vec不一致向量_Python_Word2vec_H2o

Python H2O Word2Vec不一致向量

python

Python H2O Word2Vec不一致向量,python,word2vec,h2o,Python,Word2vec,H2o,我有一个关于特定主题的一般性问题我使用Word2Vec生成的向量作为特征输入到我的分布式随机森林模型中，用于对一些记录进行分类。我有数百万张唱片，每天都会收到新唱片。由于新记录的出现，我希望新记录与以前的记录使用相同的向量模型进行编码。意思是AT这个词在现在和将来都是同一个向量。我知道Word2Vec使用一个随机种子为语料库中的单词生成向量，但我想关闭它。我需要设置种子，这样，如果我今天对一部分数据训练一个模型，然后在将来再次对相同的数据训练一个模型，我希望它为每个单词生成具有完全相同向量的

我有一个关于特定主题的一般性问题

我使用Word2Vec生成的向量作为特征输入到我的分布式随机森林模型中，用于对一些记录进行分类。我有数百万张唱片，每天都会收到新唱片。由于新记录的出现，我希望新记录与以前的记录使用相同的向量模型进行编码。意思是AT这个词在现在和将来都是同一个向量。我知道Word2Vec使用一个随机种子为语料库中的单词生成向量，但我想关闭它。我需要设置种子，这样，如果我今天对一部分数据训练一个模型，然后在将来再次对相同的数据训练一个模型，我希望它为每个单词生成具有完全相同向量的相同模型。生成新模型然后进行编码的问题是，对这些记录进行编码需要花费大量时间，而且我的DRF分类模型不再有效，因为单词的向量已经改变。所以我必须重新训练一个新的DRF。通常这不会是一个问题，因为我可以只训练每个模型，然后永远使用它；然而，我知道一个好的做法是定期更新您的软件包。这对于h2o来说是一个问题，因为一旦您更新，就不会与以前版本上生成的模型具有向后可比性

关于如何在python中为h2o的Word2Vec模型设置种子，我能读到什么资料吗？我正在使用Python版本3和h2o版本3.18，h2o-3中的word2vec使用hogwild实现-模型参数是从多个线程同时更新的，因此无法保证此实现中的再现性

你的文本语料库有多大？以降低模型训练速度为代价，您可以通过限制algo仅使用单线程h2o启动参数-nthread获得可再现的结果