R H2O随机森林在完工时暂停_R_H2o

R H2O随机森林在完工时暂停

R H2O随机森林在完工时暂停,r,h2o,R,H2o,我在一个大的（~600万）行数据集和~50个输出级别上使用h2o和R训练一个随机森林。尽管进度条100%命中，但控制台（和处理器！）仍然很忙，并且挂起了一个多小时（到目前为止！）。绝对不是资源限制，我有120gb的RAM和几十个内核鉴于问题的性质，很难给出一个完全可再现的示例，但有35个变量，其中一半是因素，我正在通过R运行模型培训，并提供以下选项： rforest <- h2o.randomForest(y = y.var , x =

我在一个大的（~600万）行数据集和~50个输出级别上使用h2o和R训练一个随机森林。尽管进度条100%命中，但控制台（和处理器！）仍然很忙，并且挂起了一个多小时（到目前为止！）。绝对不是资源限制，我有120gb的RAM和几十个内核

鉴于问题的性质，很难给出一个完全可再现的示例，但有35个变量，其中一半是因素，我正在通过R运行模型培训，并提供以下选项：

rforest <- h2o.randomForest(y = y.var
                          , x = x.vars
                          , training_frame = trainData.h2o
                          , validation_frame = testData.h2o
                          , ntrees = 100
                          , stopping_rounds = 3
                          , seed = 42
                          , model_id = modCode
                          , mtries = -1)

rforest在运行模型之前，您是否对响应变量（即y
）进行了对数转换？如果是，那么您确定在日志转换之前没有任何y=1
值吗？我有一个类似的问题，在我从数据集中删除了y=1
的行之后，模型运行得非常快。在运行模型之前，您是否对响应变量（即y
）进行了对数变换？如果是，那么您确定在日志转换之前没有任何y=1
值吗？我有一个类似的问题，在我从数据集中删除了y=1的行之后，模型运行得非常快。y=1
您的因子中有多少个级别？有成百上千的关卡吗？你启动H2O集群时有足够的RAM吗？除非指定更大的值，否则默认为4GB。只有一个大于一打，也就是几百。H2O服务器在启动时分配了100GB。接下来要尝试的步骤是：使用Flow，查看Admin->View Logs以查找任何可疑的内容。查看Admin->Profiler和Admin->Stack Trace以了解发生了什么。我知道这是一个老问题，但我发现如果不指定max_run_time参数，GridSearch进度条非常不准确-它似乎以对数方式移动-如果我每5分钟更新一次进度，它看起来会有50%、75%的变化，90%、95%、96%、97%、97%、97%……您的因子中有多少个级别？有成百上千的关卡吗？你启动H2O集群时有足够的RAM吗？除非指定更大的值，否则默认为4GB。只有一个大于一打，也就是几百。H2O服务器在启动时分配了100GB。接下来要尝试的步骤是：使用Flow，查看Admin->View Logs以查找任何可疑的内容。查看Admin->Profiler和Admin->Stack Trace以了解发生了什么。我知道这是一个老问题，但我发现如果不指定max_run_time参数，GridSearch进度条非常不准确-它似乎以对数方式移动-如果我每5分钟更新一次进度，它看起来会有50%、75%的变化， 90%, 95%, 96%, 97%, 97%, 97%.....