Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/reporting-services/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python H2O Word2Vec不一致向量_Python_Word2vec_H2o - Fatal编程技术网

Python H2O Word2Vec不一致向量

Python H2O Word2Vec不一致向量,python,word2vec,h2o,Python,Word2vec,H2o,我有一个关于特定主题的一般性问题 我使用Word2Vec生成的向量作为特征输入到我的分布式随机森林模型中,用于对一些记录进行分类。我有数百万张唱片,每天都会收到新唱片。由于新记录的出现,我希望新记录与以前的记录使用相同的向量模型进行编码。意思是AT这个词在现在和将来都是同一个向量。 我知道Word2Vec使用一个随机种子为语料库中的单词生成向量,但我想关闭它。我需要设置种子,这样,如果我今天对一部分数据训练一个模型,然后在将来再次对相同的数据训练一个模型,我希望它为每个单词生成具有完全相同向量的

我有一个关于特定主题的一般性问题

我使用Word2Vec生成的向量作为特征输入到我的分布式随机森林模型中,用于对一些记录进行分类。我有数百万张唱片,每天都会收到新唱片。由于新记录的出现,我希望新记录与以前的记录使用相同的向量模型进行编码。意思是AT这个词在现在和将来都是同一个向量。 我知道Word2Vec使用一个随机种子为语料库中的单词生成向量,但我想关闭它。我需要设置种子,这样,如果我今天对一部分数据训练一个模型,然后在将来再次对相同的数据训练一个模型,我希望它为每个单词生成具有完全相同向量的相同模型。 生成新模型然后进行编码的问题是,对这些记录进行编码需要花费大量时间,而且我的DRF分类模型不再有效,因为单词的向量已经改变。所以我必须重新训练一个新的DRF。 通常这不会是一个问题,因为我可以只训练每个模型,然后永远使用它;然而,我知道一个好的做法是定期更新您的软件包。这对于h2o来说是一个问题,因为一旦您更新,就不会与以前版本上生成的模型具有向后可比性


关于如何在python中为h2o的Word2Vec模型设置种子,我能读到什么资料吗?我正在使用Python版本3和h2o版本3.18,h2o-3中的word2vec使用hogwild实现-模型参数是从多个线程同时更新的,因此无法保证此实现中的再现性

你的文本语料库有多大?以降低模型训练速度为代价,您可以通过限制algo仅使用单线程h2o启动参数-nthread获得可再现的结果