Machine learning 信息增益计算
我有一套连续值属性Machine learning 信息增益计算,machine-learning,decision-tree,Machine Learning,Decision Tree,我有一套连续值属性温度和布尔值属性网球: Temperature: 40 48 60 72 80 90 Play Tennis: No No Yes Yes Yes No 这是我参考的一个PPT: 除了最后一个步骤,即信息增益计算,我理解了所有这些步骤。我也了解了54和85的候选阈值是如何计算的。但在下一张幻灯片中,它说temp>54的信息增益被选为最佳增益 但是根据我的论文对这个例子的计算,我发现应该选择temp>85,因
温度
和布尔值属性网球:
Temperature: 40 48 60 72 80 90
Play Tennis: No No Yes Yes Yes No
这是我参考的一个PPT:
除了最后一个步骤,即信息增益计算,我理解了所有这些步骤。我也了解了54
和85
的候选阈值是如何计算的。但在下一张幻灯片中,它说temp>54
的信息增益被选为最佳增益
但是根据我的论文对这个例子的计算,我发现应该选择temp>85
,因为它的增益值更高
我的计算:
请原谅我用的那张纸。我只是在房间里看到的任何空白纸上计算,以避免浪费纸张
基于这一点,我认为我迷失了方向。有人知道他们是如何提到temp>54
被选为最佳信息增益的吗?temp>54的条件(55,56,57,…)比temp>85(只有86,87,…)多,所以它有更多的自由度可供选择(如能级)所以,可用状态越少意味着要保存的信息就越少,因为entrphy意味着无用的状态更改或杂质(信息=纯度?),谢谢。那么你是说如果有更多的样本,那么信息增益会更高?您能否提供一个基于上述示例的示例计算?因为我还是很困惑。我觉得自己很笨,睡不着觉(现在是凌晨2点)。因为我花了好几个小时在这个信息获取部分你确定你有信息获取的概念吗?其思想是比较插入额外节点前后的熵。您的目标是通过插入拆分来减少熵(=不确定性)。我建议大家看看这个问题