Machine learning 执行随机森林时的最小观测次数_Machine Learning_Random Forest_Sample Size

Machine learning 执行随机森林时的最小观测次数

machine-learning

Machine learning 执行随机森林时的最小观测次数,machine-learning,random-forest,sample-size,Machine Learning,Random Forest,Sample Size,可以将随机森林应用于非常小的数据集吗？我有一个包含许多变量的数据集，但每个变量只有25个观察值。随机森林产生合理的结果，OOB误差较低（10-25%）。关于使用的最少观察次数，是否有经验法则？事实上，其中一个响应变量是不平衡的，如果我要对它进行二次采样，我会得到更少的观察结果。提前感谢绝对可以在这些类型的数据集上使用RF（即p>n）。事实上，他们在基因组学等领域使用RF，这些领域的字段数>=20000，只有非常少的行数——比如10-12行。整个问题是找出20k变量中的哪一个将构成节约标记

可以将随机森林应用于非常小的数据集吗？我有一个包含许多变量的数据集，但每个变量只有25个观察值。随机森林产生合理的结果，OOB误差较低（10-25%）。关于使用的最少观察次数，是否有经验法则？事实上，其中一个响应变量是不平衡的，如果我要对它进行二次采样，我会得到更少的观察结果。

提前感谢

绝对可以在这些类型的数据集上使用RF（即p>n）。事实上，他们在基因组学等领域使用RF，这些领域的字段数>=20000，只有非常少的行数——比如10-12行。整个问题是找出20k变量中的哪一个将构成节约标记（即特征选择是整个问题）

我没有任何关于最小尺寸的ROT，除非如果您的模型在保留样本上不太好（或者保留一个保留交叉验证在您的情况下可能很好），那么您应该尝试其他方法

希望这有助于

培训集包含多少功能？它包含33个预测值和4个响应变量（我应该执行4个RFs）检查启发式。我还应该补充一点，在我的案例中，25个观察值覆盖了83%的人群。事实上，我正在对一个小的分类学家族（30 sp）进行分析，每个物种都是一个观察点。如果我减少预测值的数量会更好吗？我可以避免使用其中一些。83%的覆盖率会给你信心。此外，你的OOB错误是低的，所以你有一些证据证明事情是可行的。