Python 随机森林回归中的样本大小_Python_Machine Learning_Scikit Learn_Random Forest

Python 随机森林回归中的样本大小

python machine-learning scikit-learn

Python 随机森林回归中的样本大小,python,machine-learning,scikit-learn,random-forest,Python,Machine Learning,Scikit Learn,Random Forest,如果理解正确，当计算随机森林估计器时，通常采用自举法，这意味着树（i）仅使用通过替换选择的样本（i）中的数据构建。我想知道sklearn使用的样本大小我看到的唯一一件事是： bootstrap : boolean, optional (default=True) Whether bootstrap samples are used when building trees. 但是没有办法指定样本大小或比例，也没有告诉我默认的样本大小我觉得至少应该有办法知道默认样本大小是多少，我遗漏了

如果理解正确，当计算随机森林估计器时，通常采用自举法，这意味着树（i）仅使用通过替换选择的样本（i）中的数据构建。我想知道sklearn使用的样本大小

我看到的唯一一件事是：

bootstrap : boolean, optional (default=True)
    Whether bootstrap samples are used when building trees.

但是没有办法指定样本大小或比例，也没有告诉我默认的样本大小

我觉得至少应该有办法知道默认样本大小是多少，我遗漏了什么？

引导的样本大小始终是样本数

您没有遗漏任何内容，for

RandomForestClassifier

上也提出了相同的问题：

引导样本大小始终与输入样本大小相同。如果您觉得可以，那么更新文档的请求可能会非常受欢迎

嗯，我同意你的看法。很奇怪，我们不能在

randomforestrestregistor

algo中指定子样本/引导大小。也许一个潜在的解决方法是使用

BaggingRegressor

RandomForestRegressor

只是

BaggingRegressor

的一个特例（使用引导减少一组低偏差高方差估计值的方差）。在

RandomForestRegressionor

中，基本估计器被强制为

欺骗树

，而在

BaggingRegressionor

中，您可以自由选择

基本估计器

。更重要的是，您可以设置自定义子样本大小，例如

max_samples=0.5

将绘制大小等于整个训练集一半的随机子样本。此外，您还可以通过设置

max\u features

和

bootstrap\u features

来选择功能的一个子集。在0.22版的scikit learn中，添加了

max\u samples

选项，执行您要求的操作：类的文档。

自0.22版以来，

max_samples

控制

从X中提取的样本数，以训练每个基本估计器。