Python 3.x sklearn决策树分类器:如何控制每个分割的最大分支数

Python 3.x sklearn决策树分类器:如何控制每个分割的最大分支数,python-3.x,tree,scikit-learn,sklearn-pandas,classifier4j,Python 3.x,Tree,Scikit Learn,Sklearn Pandas,Classifier4j,我正在尝试编写一个我以前使用过SAS EM的两类分类DT问题。但是试着用Sklearn来做。目标变量是两类分类变量。但也有一些连续的自变量。在SAS中,我可以为每个拆分指定“最大分支数”。因此,当它设置为4时,一些叶将拆分为2,一些叶将拆分为4(特别是对于连续变量)。我在sklearn中找不到等效参数。查看“最大叶节点”。但这控制了整个树的“叶”节点总数。我相信你们中的一些人可能也遇到过同样的情况,并且已经找到了解决办法。请帮忙/分享。我将非常感谢。我认为sklearn中没有此选项,您会发现它对

我正在尝试编写一个我以前使用过SAS EM的两类分类DT问题。但是试着用Sklearn来做。目标变量是两类分类变量。但也有一些连续的自变量。在SAS中,我可以为每个拆分指定“最大分支数”。因此,当它设置为4时,一些叶将拆分为2,一些叶将拆分为4(特别是对于连续变量)。我在sklearn中找不到等效参数。查看“最大叶节点”。但这控制了整个树的“叶”节点总数。我相信你们中的一些人可能也遇到过同样的情况,并且已经找到了解决办法。请帮忙/分享。我将非常感谢。

我认为sklearn中没有此选项,您会发现它对您的分类非常有用;因为它列出了所有可用的选项

我建议为您的变量创建垃圾箱;通过这种方式,您可以强制分支为您拥有的箱子数量


示例:对于连续变量,COl1的值在1-100之间;您可以创建4个存储箱1-25、26-50、51-75、76-100。或者您可以根据中间值创建垃圾箱。

非常感谢momo1644抽出时间回答我的问题。DataAspirant链接当然是用Python构建DTs的最佳注释之一。装箱法肯定是解决这个问题的一种方法,但我们失去了对算法确定的值进行最优分割的能力。有趣的是,Sklearn无法控制最大拆分数,因为这肯定是DT的一个重要拆分控制。好的,这可能是Python大师在sklearn包中对未来开源贡献的一个潜力。