Scikit learn 随机森林分类器中的子样本大小

Scikit learn 随机森林分类器中的子样本大小,scikit-learn,random-forest,Scikit Learn,Random Forest,该文件的内容如下: 随机森林是一种元估计器,它在数据集的不同子样本上拟合多个决策树分类器,并使用平均值来提高预测精度和对拟合的控制。子样本大小始终与原始输入样本大小相同,但如果bootstrap=True(默认),则使用替换来绘制样本 如果训练集大小X有n个实例,那么似乎为每个正在训练的决策树选取的每个子样本的大小都是n。现在,如果Bootstrap==True,那么样本将被替换,并且从统计上看,选择大量这样的样本似乎有一些好处 但是,如果Bootstrap=False(在没有替换的情况下拾取样

该文件的内容如下:

随机森林是一种元估计器,它在数据集的不同子样本上拟合多个决策树分类器,并使用平均值来提高预测精度和对拟合的控制。子样本大小始终与原始输入样本大小相同,但如果bootstrap=True(默认),则使用替换来绘制样本

如果训练集大小X有n个实例,那么似乎为每个正在训练的决策树选取的每个子样本的大小都是n。现在,如果Bootstrap==True,那么样本将被替换,并且从统计上看,选择大量这样的样本似乎有一些好处


但是,如果Bootstrap=False(在没有替换的情况下拾取样本),这意味着每个样本都与训练集相同?这是正确的解释吗?如果是这样,每棵树都会得到完全相同的样本?为什么这会被认为是一个整体呢?

注意还有一个
max\u features
参数-每棵树都有一组不同的特征可以使用(甚至在每次拆分时)。这是一个正确的解释,但正如@Blorgbeard所说,
max\u features
确实是RF的第二个关键要素(另一个是引导抽样);这个答案可能有助于澄清问题:(免责声明:我的)