Math ID3和C4.5：如何；增益比“；“正常化”；获得；？_Math_Statistics_Computer Science_Data Mining_Classification

Math ID3和C4.5：如何；增益比“；“正常化”；获得；？

math statistics computer-science

Math ID3和C4.5：如何；增益比“；“正常化”；获得；？,math,statistics,computer-science,data-mining,classification,Math,Statistics,Computer Science,Data Mining,Classification,ID3算法使用“信息增益”度量 C4.5使用“增益比”度量，即信息增益除以SplitInfo，而SplitInfo对于记录在不同结果之间平均分割的分割来说是高的，否则是低的我的问题是：这如何有助于解决信息获取偏向于具有多种结果的拆分的问题？我看不出原因SplitInfo甚至不考虑结果的数量，只考虑分割中记录的分布很可能是结果的数量很低（比如说2个），记录在这2个结果之间平均分配。在这种情况下，SplitInfo较高，增益比较低，C4.5不太可能选择结果较少的分割另一方面，结果的数量可能很

ID3算法使用“信息增益”度量

C4.5使用“增益比”度量，即信息增益除以

SplitInfo

，而

SplitInfo

对于记录在不同结果之间平均分割的分割来说是高的，否则是低的

我的问题是：

这如何有助于解决信息获取偏向于具有多种结果的拆分的问题？我看不出原因

SplitInfo

甚至不考虑结果的数量，只考虑分割中记录的分布

很可能是结果的数量很低（比如说2个），记录在这2个结果之间平均分配。在这种情况下，

SplitInfo

较高，增益比较低，C4.5不太可能选择结果较少的分割

另一方面，结果的数量可能很低，但分布却很不均匀。在这种情况下，

SplitInfo

较低，增益比较高，更可能选择具有多种结果的分割

我错过了什么

SplitInfo甚至不考虑结果的数量，只考虑分割中记录的分布

但它确实考虑到了结果的数量。（即使它也依赖于分布，如您所述）。您的比较是在两种结果数量相同（“低”）的情况下进行的，因此它不可能说明

SplitInfo

如何随着结果数量的变化而变化

考虑以下3种情况，均为均匀分布，以便于比较：

10个分布均匀的可能结果

SplitInfo=-10*（1/10*log2（1/10））=3.32

分布均匀的100种可能结果

SplitInfo=-100*（1/100*log2（1/100））=6.64

分布均匀的1000种可能结果

SplitInfo=-1000*（1/1000*log2（1/1000））=9.97

因此，如果您必须在3种可能的拆分方案中进行选择，只使用ID3中的

信息增益

，则会选择后者。但是，在

GainRatio

中使用

SplitInfo

，应该清楚的是，随着选择数量的增加，

SplitInfo

也会增加，

GainRatio

也会减少

所有这些都是用均匀分布的分裂假设来解释的。然而，即使分布不均匀，上述情况仍然成立<代码>拆分信息将随着可能结果的数量增加而增加。是的，如果我们保持可能结果的数量不变并改变结果分布，那么

SplitInfo

将有一些差异。。。但是，

信息获取也会如此

这个问题可能更适合。@JoachimPileborg不，这是一个理论问题。但它可能更适合stats.stackexchange.com。