Scikit learn Scikit学习-随机林：如何处理连续特性？_Scikit Learn_Random Forest_Discretization

Scikit learn Scikit学习-随机林：如何处理连续特性？

scikit-learn

Scikit learn Scikit学习-随机林：如何处理连续特性？,scikit-learn,random-forest,discretization,Scikit Learn,Random Forest,Discretization,随机森林接受数字数据。通常，具有文本数据的特征被转换为数字类别，连续的数字数据按原样输入，而不进行离散化。RF如何处理用于创建节点的连续数据？它会在内部存储连续的数字数据吗？或者将每个数据视为离散级别例如：我想向RF提供一个数据集（当然是在对文本特征进行分类之后）。RF如何处理连续数据？喂食前，是否建议离散连续数据（在这种情况下为经度和纬度）？或者这样做会丢失信息您询问的是决策树。由于RandomForest是集成模型，而且它本身对数据一无所知，因此它完全依赖于基础估计器的决策（在本例中

随机森林接受数字数据。通常，具有文本数据的特征被转换为数字类别，连续的数字数据按原样输入，而不进行离散化。RF如何处理用于创建节点的连续数据？它会在内部存储连续的数字数据吗？或者将每个数据视为离散级别

例如：我想向RF提供一个数据集（当然是在对文本特征进行分类之后）。RF如何处理连续数据？喂食前，是否建议离散连续数据（在这种情况下为经度和纬度）？或者这样做会丢失信息

您询问的是

决策树。由于RandomForest
是集成模型，而且它本身对数据一无所知，因此它完全依赖于基础估计器的决策（在本例中为DecisionTrees
），并对它们进行聚合
所以，DecisionTree
是如何处理连续特性的：请查看官方文档页面DecisionTreeClassifier
安装在连续数据集（Fisher-irises）上，如果你看一下树的图片，它在每个节点上都有阈值，在这个节点上选择了一些特征。
据我所知，你是在问如何为连续特征选择阈值。binning在值处发生，您的类在值处发生更改。例如，考虑下面的1D数据集，如<代码> x>代码>作为特性，<代码> y>代码>作为类变量
x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]

将考虑两种可能的候选削减：（i）在2和3之间（实际上看起来像x