Math ID3和C4.5:如何;增益比“;“正常化”;获得;?
ID3算法使用“信息增益”度量 C4.5使用“增益比”度量,即信息增益除以Math ID3和C4.5:如何;增益比“;“正常化”;获得;?,math,statistics,computer-science,data-mining,classification,Math,Statistics,Computer Science,Data Mining,Classification,ID3算法使用“信息增益”度量 C4.5使用“增益比”度量,即信息增益除以SplitInfo,而SplitInfo对于记录在不同结果之间平均分割的分割来说是高的,否则是低的 我的问题是: 这如何有助于解决信息获取偏向于具有多种结果的拆分的问题?我看不出原因SplitInfo甚至不考虑结果的数量,只考虑分割中记录的分布 很可能是结果的数量很低(比如说2个),记录在这2个结果之间平均分配。在这种情况下,SplitInfo较高,增益比较低,C4.5不太可能选择结果较少的分割 另一方面,结果的数量可能很
SplitInfo
,而SplitInfo
对于记录在不同结果之间平均分割的分割来说是高的,否则是低的
我的问题是:
这如何有助于解决信息获取偏向于具有多种结果的拆分的问题?我看不出原因SplitInfo
甚至不考虑结果的数量,只考虑分割中记录的分布
很可能是结果的数量很低(比如说2个),记录在这2个结果之间平均分配。在这种情况下,SplitInfo
较高,增益比较低,C4.5不太可能选择结果较少的分割
另一方面,结果的数量可能很低,但分布却很不均匀。在这种情况下,SplitInfo
较低,增益比较高,更可能选择具有多种结果的分割
我错过了什么
SplitInfo甚至不考虑结果的数量,只考虑分割中记录的分布
但它确实考虑到了结果的数量。(即使它也依赖于分布,如您所述)。您的比较是在两种结果数量相同(“低”)的情况下进行的,因此它不可能说明SplitInfo
如何随着结果数量的变化而变化
考虑以下3种情况,均为均匀分布,以便于比较:
- 10个分布均匀的可能结果
SplitInfo=-10*(1/10*log2(1/10))=3.32
- 分布均匀的100种可能结果
SplitInfo=-100*(1/100*log2(1/100))=6.64
- 分布均匀的1000种可能结果
SplitInfo=-1000*(1/1000*log2(1/1000))=9.97
信息增益
,则会选择后者。但是,在GainRatio
中使用SplitInfo
,应该清楚的是,随着选择数量的增加,SplitInfo
也会增加,GainRatio
也会减少
所有这些都是用均匀分布的分裂假设来解释的。然而,即使分布不均匀,上述情况仍然成立<代码>拆分信息将随着可能结果的数量增加而增加。是的,如果我们保持可能结果的数量不变并改变结果分布,那么
SplitInfo
将有一些差异。。。但是,信息获取也会如此
这个问题可能更适合。@JoachimPileborg不,这是一个理论问题。但它可能更适合stats.stackexchange.com。