Machine learning 关于决策树和随机森林分类器（scikit）的疑问_Machine Learning_Scikit Learn_Random Forest_Decision Tree_Ensemble Learning

Machine learning 关于决策树和随机森林分类器（scikit）的疑问

machine-learning scikit-learn

Machine learning 关于决策树和随机森林分类器（scikit）的疑问,machine-learning,scikit-learn,random-forest,decision-tree,ensemble-learning,Machine Learning,Scikit Learn,Random Forest,Decision Tree,Ensemble Learning,我是决策树的新手，所以可能这些都是琐碎的问题决策树：根据scikit doc（），“predict_proba”函数返回每个类的概率，即叶中同一类的训练样本的分数。这到底意味着什么随机森林分类器：在随机林分类器中，使用替换（自举）进行采样的优势是什么。与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集（） scikit随机林分类器中有一个参数为“bootstrap_features”（特征绘制时有替换或无替换）。用替换来绘制特征究竟意味着什么。根据我的理解，在生长一棵树时，你不能

我是决策树的新手，所以可能这些都是琐碎的问题

决策树：

根据scikit doc（），“predict_proba”函数返回每个类的概率，即叶中同一类的训练样本的分数。这到底意味着什么

随机森林分类器：

在随机林分类器中，使用替换（自举）进行采样的优势是什么。与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集（）

scikit随机林分类器中有一个参数为“bootstrap_features”（特征绘制时有替换或无替换）。用替换来绘制特征究竟意味着什么。根据我的理解，在生长一棵树时，你不能再使用相同的功能。那么，替换一个功能究竟意味着什么呢

从随机森林分类器中学习变量重要性背后的直觉是什么

DT 根据scikit doc（），“predict_proba”函数返回每个类的概率，即叶中同一类的训练样本的分数。这到底意味着什么

如果你没有限制地生长你的树——这没有任何意义，预测proba将始终100%地输出。但是，如果您以某种方式限制了树的大小（例如，通过最大深度），则某些叶实际上将以不同类的样本结束，然后预测概率，如果分类在此类叶中完成，则返回与此叶中的每个类样本成比例的每个类的概率。例如，您最终得到一个包含来自类1的3个样本和来自类2的2个样本的叶，那么如果您最终得到这个叶，您将输出[0.6 0.4]（3/（3+2）=3/5=0.6=60%是您应该分配类1的概率，而对于类2/（3+2）=2/5=0.4=40%

射频1 在随机林分类器中使用替换（自举）进行采样有什么好处？与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集（）

它使您的训练集的大小与原始训练集的大小相同，因此您可以或多或少地使用与单个树相同的超参数范围。此外，这使训练集更加多样化（因为您对某些样本进行了人工“增强”，这些样本被多次提取）。它还具有更好的统计特性，因此可以更好地估计估计器的特性（例如其泛化能力）

射频2 scikit随机林分类器中有一个参数为“bootstrap_features”（特征绘制时使用或不使用替换）。使用替换绘制特征到底意味着什么。根据我的理解，在生长树时不能再次使用相同的特征。那么替换特征到底意味着什么呢

类sklearn.ensemble.RandomForestClassifier（n_估计器=10，标准='gini'，最大深度=无，最小样本数=2，最小样本叶=1，最小重量叶=0.0，最大特征=自动， max_leaf_nodes=None，bootstrap=True，oob_分数=False，n_作业=1， random_state=None，verbose=0，warm_start=False，class_weight=None

也许你指的是一般的装袋？那么你可以对每一项功能进行多次使用

射频3 从随机森林分类器中学习变量重要性背后的直觉是什么

这只是衡量树中每个特征用于决策的样本数的一个指标，因此，如果从数据集中删除此特征，分数越低，损失越小。您可以以多种方式使用它，包括特征选择、数据分析反馈等

相对等级（即深度）树中用作决策节点的特征的相对重要性可用于评估该特征相对于目标变量可预测性的相对重要性。树顶部使用的特征有助于更大比例输入样本的最终预测决策。它们控制的样本的预期比例因此，ibute to可以用作特征相对重要性的估计值

感谢关于RF1的DT和RF3，我很困惑，取样将如何给出原始集的大小。还有，这种人工提升样本的效果如何，以及推广效果如何更好。关于RF2，很抱歉出现了错误。是的，它用于通用包装（）。它存在的意义是什么？