Machine learning 执行随机森林时的最小观测次数

Machine learning 执行随机森林时的最小观测次数,machine-learning,random-forest,sample-size,Machine Learning,Random Forest,Sample Size,可以将随机森林应用于非常小的数据集吗? 我有一个包含许多变量的数据集,但每个变量只有25个观察值。随机森林产生合理的结果,OOB误差较低(10-25%)。 关于使用的最少观察次数,是否有经验法则? 事实上,其中一个响应变量是不平衡的,如果我要对它进行二次采样,我会得到更少的观察结果。 提前感谢绝对可以在这些类型的数据集上使用RF(即p>n)。事实上,他们在基因组学等领域使用RF,这些领域的字段数>=20000,只有非常少的行数——比如10-12行。整个问题是找出20k变量中的哪一个将构成节约标记

可以将随机森林应用于非常小的数据集吗? 我有一个包含许多变量的数据集,但每个变量只有25个观察值。随机森林产生合理的结果,OOB误差较低(10-25%)。 关于使用的最少观察次数,是否有经验法则? 事实上,其中一个响应变量是不平衡的,如果我要对它进行二次采样,我会得到更少的观察结果。
提前感谢

绝对可以在这些类型的数据集上使用RF(即p>n)。事实上,他们在基因组学等领域使用RF,这些领域的字段数>=20000,只有非常少的行数——比如10-12行。整个问题是找出20k变量中的哪一个将构成节约标记(即特征选择是整个问题)

我没有任何关于最小尺寸的ROT,除非如果您的模型在保留样本上不太好(或者保留一个保留交叉验证在您的情况下可能很好),那么您应该尝试其他方法


希望这有助于

培训集包含多少功能?它包含33个预测值和4个响应变量(我应该执行4个RFs)检查启发式。我还应该补充一点,在我的案例中,25个观察值覆盖了83%的人群。事实上,我正在对一个小的分类学家族(30 sp)进行分析,每个物种都是一个观察点。如果我减少预测值的数量会更好吗?我可以避免使用其中一些。83%的覆盖率会给你信心。此外,你的OOB错误是低的,所以你有一些证据证明事情是可行的。