Scikit learn Scikit学习-随机林:如何处理连续特性?

Scikit learn Scikit学习-随机林:如何处理连续特性?,scikit-learn,random-forest,discretization,Scikit Learn,Random Forest,Discretization,随机森林接受数字数据。通常,具有文本数据的特征被转换为数字类别,连续的数字数据按原样输入,而不进行离散化。RF如何处理用于创建节点的连续数据?它会在内部存储连续的数字数据吗?或者将每个数据视为离散级别 例如: 我想向RF提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据? 喂食前,是否建议离散连续数据(在这种情况下为经度和纬度)?或者这样做会丢失信息 您询问的是决策树。由于RandomForest是集成模型,而且它本身对数据一无所知,因此它完全依赖于基础估计器的决策(在本例中

随机森林接受数字数据。通常,具有文本数据的特征被转换为数字类别,连续的数字数据按原样输入,而不进行离散化。RF如何处理用于创建节点的连续数据?它会在内部存储连续的数字数据吗?或者将每个数据视为离散级别

例如: 我想向RF提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据? 喂食前,是否建议离散连续数据(在这种情况下为经度和纬度)?或者这样做会丢失信息


您询问的是
决策树。由于
RandomForest
是集成模型,而且它本身对数据一无所知,因此它完全依赖于基础估计器的决策(在本例中为
DecisionTrees
),并对它们进行聚合


所以,
DecisionTree
是如何处理连续特性的:请查看官方文档页面
DecisionTreeClassifier
安装在连续数据集(Fisher-irises)上,如果你看一下树的图片,它在每个节点上都有阈值,在这个节点上选择了一些特征。

据我所知,你是在问如何为连续特征选择阈值。binning在值处发生,您的类在值处发生更改。例如,考虑下面的1D数据集,如<代码> x>代码>作为特性,<代码> y>代码>作为类变量

x = [ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [ 1, 1, 0, 0, 0, 0, 0, 1, 1, 1]
将考虑两种可能的候选削减:(i)在2和3之间(实际上看起来像x