Machine learning 有人能解释一下这个输出到底是什么吗?
我将WEKA与“weather.arff”数据集一起使用,然后我应用了朴素贝叶斯分类器,并进行了10倍交叉验证,正如您在给定的快照中所看到的那样。除了我在照片上标记为红色的东西外,我几乎了解所有的东西 总共有Machine learning 有人能解释一下这个输出到底是什么吗?,machine-learning,weka,naivebayes,Machine Learning,Weka,Naivebayes,我将WEKA与“weather.arff”数据集一起使用,然后我应用了朴素贝叶斯分类器,并进行了10倍交叉验证,正如您在给定的快照中所看到的那样。除了我在照片上标记为红色的东西外,我几乎了解所有的东西 总共有9(是)+5(否)=14,但这些总和超过了总数。这是什么意思?它们是否与10倍CV后分类器的性能有关 outlook sunny 3.0 4.0 overcast 5.0 1.0 rainy 4.0
9(是)+5(否)=14
,但这些总和超过了总数。这是什么意思?它们是否与10倍CV后分类器的性能有关
outlook
sunny 3.0 4.0
overcast 5.0 1.0
rainy 4.0 3.0
[total] 12.0 8.0
这里的总数是20.0
,但我们有14个
实例?
晴天、阴天和雨天这些都算什么?
他们来自哪里
这个加权和是多少?如何计算以及与NB的关系如何
有一个关于10倍交叉验证的解释 随机选择10组数据,分为90%的训练数据和10%的测试数据。由于要处理14行数据,可能需要12行用于培训,2行用于测试。在运行所有10个测试之后,将有20个结果。这对于有关前景的数据来说是有意义的,但windy的18个总数使这一理论受到质疑
我相信图片顶部的0.63和0.38代表了10项测试中是和否答案的百分比。我找到了问题的答案。这个问题被称为“零频率问题”,WEKA所做的是将每个属性值相加1。原因是为了避免0概率。否则,当乘以概率时,整个概率将变为0。事实上,概率为零并不能推断出任何关于该案例的新信息。此外,它既不需要进行大量的“交叉验证”迭代,也不需要进行CV性能评估
outlook Yes No
sunny (2+1)=3.0 (3+1)=4.0
overcast (4+1)=5.0 (0+1)=1.0
rainy (3+1)=4.0 (2+1)=3.0
[total] 12.0 8.0
实际实例=9+5=14
另一件重要的事情是,WEKA对所有属性都这样做,在这种情况下是对阴天、温度、湿度和大风