R H2O随机森林在完工时暂停

R H2O随机森林在完工时暂停,r,h2o,R,H2o,我在一个大的(~600万)行数据集和~50个输出级别上使用h2o和R训练一个随机森林。尽管进度条100%命中,但控制台(和处理器!)仍然很忙,并且挂起了一个多小时(到目前为止!)。绝对不是资源限制,我有120gb的RAM和几十个内核 鉴于问题的性质,很难给出一个完全可再现的示例,但有35个变量,其中一半是因素,我正在通过R运行模型培训,并提供以下选项: rforest <- h2o.randomForest(y = y.var , x =

我在一个大的(~600万)行数据集和~50个输出级别上使用h2o和R训练一个随机森林。尽管进度条100%命中,但控制台(和处理器!)仍然很忙,并且挂起了一个多小时(到目前为止!)。绝对不是资源限制,我有120gb的RAM和几十个内核

鉴于问题的性质,很难给出一个完全可再现的示例,但有35个变量,其中一半是因素,我正在通过R运行模型培训,并提供以下选项:

rforest <- h2o.randomForest(y = y.var
                          , x = x.vars
                          , training_frame = trainData.h2o
                          , validation_frame = testData.h2o
                          , ntrees = 100
                          , stopping_rounds = 3
                          , seed = 42
                          , model_id = modCode
                          , mtries = -1)

rforest在运行模型之前,您是否对响应变量(即
y
)进行了对数转换?如果是,那么您确定在日志转换之前没有任何
y=1
值吗?我有一个类似的问题,在我从数据集中删除了
y=1

的行之后,模型运行得非常快。在运行模型之前,您是否对响应变量(即
y
)进行了对数变换?如果是,那么您确定在日志转换之前没有任何
y=1
值吗?我有一个类似的问题,在我从数据集中删除了y=1的行之后,模型运行得非常快。
y=1

您的因子中有多少个级别?有成百上千的关卡吗?你启动H2O集群时有足够的RAM吗?除非指定更大的值,否则默认为4GB。只有一个大于一打,也就是几百。H2O服务器在启动时分配了100GB。接下来要尝试的步骤是:使用Flow,查看Admin->View Logs以查找任何可疑的内容。查看Admin->Profiler和Admin->Stack Trace以了解发生了什么。我知道这是一个老问题,但我发现如果不指定max_run_time参数,GridSearch进度条非常不准确-它似乎以对数方式移动-如果我每5分钟更新一次进度,它看起来会有50%、75%的变化,90%、95%、96%、97%、97%、97%……您的因子中有多少个级别?有成百上千的关卡吗?你启动H2O集群时有足够的RAM吗?除非指定更大的值,否则默认为4GB。只有一个大于一打,也就是几百。H2O服务器在启动时分配了100GB。接下来要尝试的步骤是:使用Flow,查看Admin->View Logs以查找任何可疑的内容。查看Admin->Profiler和Admin->Stack Trace以了解发生了什么。我知道这是一个老问题,但我发现如果不指定max_run_time参数,GridSearch进度条非常不准确-它似乎以对数方式移动-如果我每5分钟更新一次进度,它看起来会有50%、75%的变化, 90%, 95%, 96%, 97%, 97%, 97%.....