Python 调查结果;“最纯粹的”;sklearn中决策树的叶子
我使用决策树进行二元分类,我感兴趣的是找到具有“最纯”分类的终端节点,对应于输入空间的一个子空间,其中单个类占主导地位。为了避免过度拟合,我使用了Python 调查结果;“最纯粹的”;sklearn中决策树的叶子,python,machine-learning,scikit-learn,classification,decision-tree,Python,Machine Learning,Scikit Learn,Classification,Decision Tree,我使用决策树进行二元分类,我感兴趣的是找到具有“最纯”分类的终端节点,对应于输入空间的一个子空间,其中单个类占主导地位。为了避免过度拟合,我使用了min\u samples\u leaf标志 更具体地说,我想: 检查经过训练的决策树中的所有叶子 找到每个叶的0/1比率 查找每个叶对应的规则 我以前看过关于查找规则的帖子,但还没有找到如何查找每叶的比率 到目前为止您做了什么?按照建议打印规则,但找不到如何提取0/1比率您为什么要寻找“最纯净”的叶子?有时,该度量可能毫无意义,特别是当到达的终端
min\u samples\u leaf
标志
更具体地说,我想:
- 检查经过训练的决策树中的所有叶子
- 找到每个叶的0/1比率
- 查找每个叶对应的规则
我以前看过关于查找规则的帖子,但还没有找到如何查找每叶的比率 到目前为止您做了什么?按照建议打印规则,但找不到如何提取0/1比率您为什么要寻找“最纯净”的叶子?有时,该度量可能毫无意义,特别是当到达的终端节点在树上的位置过高/过低时(即,“纯净度”可以表示问题空间中较容易的部分或数据点很少的部分或其他东西……),我感兴趣的是找到一组简单的规则,帮助我找到一组0(或1)这是尽可能同质的。事实上,我必须确保这些规则“有意义”,并控制每个叶的最小数据点数量。