使用randomForest软件包的海量数据集

使用randomForest软件包的海量数据集,r,package,R,Package,我的模型中有大约300000行数据和10个功能,我想从R中的randomForest包中拟合一个随机林 为了在固定的时间窗口内最大限度地增加森林中的树木数量,而不破坏概括,我应该将参数设置为什么合理范围?通常,您只需mtry,如下所述,默认值通常是最好的: 但是有一个带有randomForest的函数tuneRF,它将帮助您找到最佳ntree或mtry,如下所述: 你需要花时间来测试自己——这将是FoldTuningTrees的产品 P>唯一的推测点是,300000行数据“可能> /强>通

我的模型中有大约300000行数据和10个功能,我想从
R
中的
randomForest
包中拟合一个随机林


为了在固定的时间窗口内最大限度地增加森林中的树木数量,而不破坏概括,我应该将参数设置为什么合理范围?

通常,您只需
mtry
,如下所述,默认值通常是最好的:

但是有一个带有randomForest的函数
tuneRF
,它将帮助您找到最佳
ntree
mtry
,如下所述:

你需要花时间来测试自己——这将是FoldTuningTrees的产品


<> P>唯一的推测点是,300000行数据“<强>可能> /强>通过引导数据的小样本来减少运行时间而不丢失数据的准确度??

这是一个更大的统计问题,而不是一个编程问题,你应该考虑迁移到交叉验证,你也可能需要。探索交叉验证以设置参数@这是一个时间复杂的问题。我想知道时间复杂度可行的参数值范围。然后,我将在这些时间间隔的笛卡尔乘积中使用交叉验证。我不认为是什么阻止了您对较小版本的数据进行一些测试来自己解决这个问题。