R 如何迭代训练h2o automl模型

R 如何迭代训练h2o automl模型,r,machine-learning,h2o,automl,R,Machine Learning,H2o,Automl,我试图使用h2o.automl()进行训练。但由于超时,培训已退出。我知道max\u runtime\u secs可以设置为更高的数字。但是如果我们能训练一个小时,然后把它保存在某个地方,那就太好了。第二天再从第一天留下的地方训练它 怎么做 我已尝试设置项目名称——但退出时未保存任何内容。所以,如果我们关掉电脑重新启动,它是没有用的 我为此使用了以下代码: library( h2o ) h2o.init( nthreads = -1, max_mem_size = '10240m' ) tr

我试图使用
h2o.automl()
进行训练。但由于超时,培训已退出。我知道
max\u runtime\u secs
可以设置为更高的数字。但是如果我们能训练一个小时,然后把它保存在某个地方,那就太好了。第二天再从第一天留下的地方训练它

怎么做

我已尝试设置
项目名称
——但退出时未保存任何内容。所以,如果我们关掉电脑重新启动,它是没有用的

我为此使用了以下代码:

library( h2o )

h2o.init( nthreads = -1, max_mem_size = '10240m' )

train = h2o.importFile( 'train.csv' )

automl_model = h2o.automl( y = 'outcome', training_frame = train, nfolds = 3, max_runtime_secs = 1800,

                           project_name = 'automl_aus_tennis' )

链接到train.csv:

您可以使用相同的
项目名称和不同的种子重复运行
h2o.automl()
,以构建其他模型并将它们添加到相同的
排行榜
。我总是这样做

有一个,应该很快就会出现,它允许您指定algos不运行。这允许您调整在每次运行
AutoML
时执行哪些超参数搜索


您需要保持
h2o-3
实例运行以实现目标,因为您当前无法将
AutoML
运行状态持久化到磁盘并将其加载到新的
h2o-3
实例中,或者将从磁盘加载的模型添加到
排行榜中。这些将是有用的功能请求。:-)

如果稍后关闭H2O群集(或机器)并重新启动H2O群集,则无法继续运行H2O AutoML作业。如果您让H2O集群保持运行状态,您可以通过再次运行
H2O.automl()
将更多型号添加到您的排行榜,并使用与
project\u name
相同的值


如果需要在两次运行之间关闭H2O群集,那么最好在第二次、第三次、第四次等运行时在
H2O.automl()
函数中设置不同的
种子。这样,您可能会得到新的模型,而不是在以前的AutoML运行中已经训练过的模型。

保持h2o-3实例运行是很困难的。我将在github中将此作为功能请求发布。这对复杂的模型非常有帮助。还有为什么需要不同的种子。如果使用不同的启动模型,automl将从另一个启动模型启动?另外,我们如何知道在后续运行中添加了哪些模型?使用排行榜位置,对吗?如果您在每次运行中使用相同的种子,则在后续运行中,每个超参数搜索的超参数向量序列将相同,因此您将在运行之间获得重复的模型。
AutoML
运行的时间戳将是每个模型的
model\u id
的一部分,因此很容易区分哪些模型来自哪个运行。