Machine learning 创建决策树和分割属性时出现问题?
因此,我试图在一个属性“颜色”上进行分割,该属性可能有值(蓝色、绿色、红色、橙色、粉色) 我对值进行拆分,最佳拆分可以是多路5、多路4、多路3或二进制。例如:Machine learning 创建决策树和分割属性时出现问题?,machine-learning,classification,decision-tree,supervised-learning,Machine Learning,Classification,Decision Tree,Supervised Learning,因此,我试图在一个属性“颜色”上进行分割,该属性可能有值(蓝色、绿色、红色、橙色、粉色) 我对值进行拆分,最佳拆分可以是多路5、多路4、多路3或二进制。例如: 5: (Blue, Green,Red,Orange,Pink) 4: (Blue, Green), (Red), (Orange), (Pink) (Green,Pink), (Blue),(Red),(Orange) 3: (Red,Orange), (Blue,Green), (Pink) (Red,Blue), (
5: (Blue, Green,Red,Orange,Pink)
4: (Blue, Green), (Red), (Orange), (Pink)
(Green,Pink), (Blue),(Red),(Orange)
3: (Red,Orange), (Blue,Green), (Pink)
(Red,Blue), (Green, Orange), (Pink)
2: (Blue,Green,Red), (Orange,Pink)
(Pink), (Blue, Green, Red, Orange)
等等。但是,我如何才能全面列出所有可能的拆分?有没有我可以使用的特定算法?或者我怎么知道有多少最大可能的组合
任何帮助都将不胜感激,谢谢 根据熵(信息增益)的最佳分割总是5 回想一下,当您根据一个属性进行分割时,您可以获得关于Y的信息,或者如果它们是独立的,则没有信息增益,即每次分割时的信息增益大于等于零。因此IG(情况2:4)=0参考:
通常,在决策树/RF中,您尝试找到一个单一的分割,该分割为一个属性提供了最高的IG,然后比较各个属性并选择一个。根据熵(信息增益)的最佳分割总是5 回想一下,当您根据一个属性进行分割时,您可以获得关于Y的信息,或者如果它们是独立的,则没有信息增益,即每次分割时的信息增益大于等于零。因此IG(情况2:4)=0参考: 通常,在决策树/RF中,您尝试找到一个单一的分割,该分割为属性提供了最高的IG,然后比较各个属性并选择一个