Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 如何计算以下数据集的信息增益?_Machine Learning_Classification_Decision Tree_Information Gain - Fatal编程技术网

Machine learning 如何计算以下数据集的信息增益?

Machine learning 如何计算以下数据集的信息增益?,machine-learning,classification,decision-tree,information-gain,Machine Learning,Classification,Decision Tree,Information Gain,在理解信息增益计算的同时- 人群中患癌症的概率为1%。癌症测试可以正确识别50%的癌症患者和99.5%的非癌症患者。现在我必须计算通过癌症测试获得的信息增益? 这是我在学习熵和信息增益时试图解决的练习问题之一。 编辑- 我在上面计算的尝试是- 如果我们认为总人口为100 -BR> 癌症患者=1 非癌症患者=99 熵H=-1/100对数(1/100)-99/100对数(99/100) 现在对癌症患者的测试给了我-50%的癌症患者和50%的非癌症患者。因此,分类为癌症患者的熵- H1 = -1/2(

在理解信息增益计算的同时- 人群中患癌症的概率为1%。癌症测试可以正确识别50%的癌症患者和99.5%的非癌症患者。现在我必须计算通过癌症测试获得的信息增益? 这是我在学习熵和信息增益时试图解决的练习问题之一。 编辑- 我在上面计算的尝试是-

如果我们认为总人口为100 -BR>
癌症患者=1
非癌症患者=99
熵H=-1/100对数(1/100)-99/100对数(99/100)

现在对癌症患者的测试给了我-50%的癌症患者和50%的非癌症患者。因此,分类为癌症患者的熵-

H1 = -1/2(log1/2)-1/2log(1/2)
非癌症患者它为99.5%的非癌症患者和0.5%的癌症患者提供信息。因此,信息获取应该是有限的。非癌症患者的分类熵为-

H2=-(99.5*99/100)对数(99.5*99/100)-(5/100)*99对数(5/100*99)
我想知道测试后得到熵的方法是否正确。如果这是正确的,则可以计算信息增益-

Information gain = H - (H1+H2)

那么,你的第一次尝试是什么?@Anony Mouse我已经编辑了我的问题,并根据我的理解陈述了解决方案。请告诉我它是否正确?