Math ID3和C4.5:如何;增益比“;“正常化”;获得;?

Math ID3和C4.5:如何;增益比“;“正常化”;获得;?,math,statistics,computer-science,data-mining,classification,Math,Statistics,Computer Science,Data Mining,Classification,ID3算法使用“信息增益”度量 C4.5使用“增益比”度量,即信息增益除以SplitInfo,而SplitInfo对于记录在不同结果之间平均分割的分割来说是高的,否则是低的 我的问题是: 这如何有助于解决信息获取偏向于具有多种结果的拆分的问题?我看不出原因SplitInfo甚至不考虑结果的数量,只考虑分割中记录的分布 很可能是结果的数量很低(比如说2个),记录在这2个结果之间平均分配。在这种情况下,SplitInfo较高,增益比较低,C4.5不太可能选择结果较少的分割 另一方面,结果的数量可能很

ID3算法使用“信息增益”度量

C4.5使用“增益比”度量,即信息增益除以
SplitInfo
,而
SplitInfo
对于记录在不同结果之间平均分割的分割来说是高的,否则是低的

我的问题是:

这如何有助于解决信息获取偏向于具有多种结果的拆分的问题?我看不出原因
SplitInfo
甚至不考虑结果的数量,只考虑分割中记录的分布

很可能是结果的数量很低(比如说2个),记录在这2个结果之间平均分配。在这种情况下,
SplitInfo
较高,增益比较低,C4.5不太可能选择结果较少的分割

另一方面,结果的数量可能很低,但分布却很不均匀。在这种情况下,
SplitInfo
较低,增益比较高,更可能选择具有多种结果的分割

我错过了什么

SplitInfo甚至不考虑结果的数量,只考虑分割中记录的分布

但它确实考虑到了结果的数量。(即使它也依赖于分布,如您所述)。您的比较是在两种结果数量相同(“低”)的情况下进行的,因此它不可能说明
SplitInfo
如何随着结果数量的变化而变化

考虑以下3种情况,均为均匀分布,以便于比较:

  • 10个分布均匀的可能结果

    SplitInfo=-10*(1/10*log2(1/10))=3.32

  • 分布均匀的100种可能结果

    SplitInfo=-100*(1/100*log2(1/100))=6.64

  • 分布均匀的1000种可能结果

    SplitInfo=-1000*(1/1000*log2(1/1000))=9.97

因此,如果您必须在3种可能的拆分方案中进行选择,只使用ID3中的
信息增益
,则会选择后者。但是,在
GainRatio
中使用
SplitInfo
,应该清楚的是,随着选择数量的增加,
SplitInfo
也会增加,
GainRatio
也会减少


所有这些都是用均匀分布的分裂假设来解释的。然而,即使分布不均匀,上述情况仍然成立<代码>拆分信息将随着可能结果的数量增加而增加。是的,如果我们保持可能结果的数量不变并改变结果分布,那么
SplitInfo
将有一些差异。。。但是,
信息获取也会如此

这个问题可能更适合。@JoachimPileborg不,这是一个理论问题。但它可能更适合stats.stackexchange.com。