Random forest 随机林中的nclass*nsample大于整数类型支持的最大数
我在一个数据集上运行随机林,该数据集具有nsample=20379102和5个特性。目标功能是分类的,nclass=107189级别。我收到以下错误:Random forest 随机林中的nclass*nsample大于整数类型支持的最大数,random-forest,integer-overflow,Random Forest,Integer Overflow,我在一个数据集上运行随机林,该数据集具有nsample=20379102和5个特性。目标功能是分类的,nclass=107189级别。我收到以下错误: Error in integer(nclass * nsample) : vector size cannot be NA Calls: randomForest ... randomForest.formula -> randomForest.default -> integer In addition: Warning messa
Error in integer(nclass * nsample) : vector size cannot be NA
Calls: randomForest ... randomForest.formula -> randomForest.default -> integer
In addition: Warning message:
In nclass * nsample : NAs produced by integer overflow
Execution halted
显然,随机林源代码中的nclass*nsample定义为整数,在我的问题中,它大于整数类型支持的最大数
我考虑过对数据的几个部分进行训练,并结合模型,但是我可以训练的largset数据集包含nsample=175545和nclass=1257,这是非常小的数据部分
你有没有建议修改integer的限制?我正在一个拥有大量CPU节点和内存的大型集群上运行该算法。我已经尝试过并行和串行实现,它们在行数或类级别较低的情况下都能很好地工作。