Scikit learn 随机森林分类器中的子样本大小_Scikit Learn_Random Forest

Scikit learn 随机森林分类器中的子样本大小

scikit-learn

Scikit learn 随机森林分类器中的子样本大小,scikit-learn,random-forest,Scikit Learn,Random Forest,该文件的内容如下：随机森林是一种元估计器，它在数据集的不同子样本上拟合多个决策树分类器，并使用平均值来提高预测精度和对拟合的控制。子样本大小始终与原始输入样本大小相同，但如果bootstrap=True（默认），则使用替换来绘制样本如果训练集大小X有n个实例，那么似乎为每个正在训练的决策树选取的每个子样本的大小都是n。现在，如果Bootstrap==True，那么样本将被替换，并且从统计上看，选择大量这样的样本似乎有一些好处但是，如果Bootstrap=False（在没有替换的情况下拾取样

该文件的内容如下：

随机森林是一种元估计器，它在数据集的不同子样本上拟合多个决策树分类器，并使用平均值来提高预测精度和对拟合的控制。子样本大小始终与原始输入样本大小相同，但如果bootstrap=True（默认），则使用替换来绘制样本

如果训练集大小X有n个实例，那么似乎为每个正在训练的决策树选取的每个子样本的大小都是n。现在，如果Bootstrap==True，那么样本将被替换，并且从统计上看，选择大量这样的样本似乎有一些好处

但是，如果Bootstrap=False（在没有替换的情况下拾取样本），这意味着每个样本都与训练集相同？这是正确的解释吗？如果是这样，每棵树都会得到完全相同的样本？为什么这会被认为是一个整体呢？

注意还有一个

max\u features

参数-每棵树都有一组不同的特征可以使用（甚至在每次拆分时）。这是一个正确的解释，但正如@Blorgbeard所说，

max\u features

确实是RF的第二个关键要素（另一个是引导抽样）；这个答案可能有助于澄清问题：（免责声明：我的）