Machine learning 有人能解释一下这个输出到底是什么吗?

Machine learning 有人能解释一下这个输出到底是什么吗?,machine-learning,weka,naivebayes,Machine Learning,Weka,Naivebayes,我将WEKA与“weather.arff”数据集一起使用,然后我应用了朴素贝叶斯分类器,并进行了10倍交叉验证,正如您在给定的快照中所看到的那样。除了我在照片上标记为红色的东西外,我几乎了解所有的东西 总共有9(是)+5(否)=14,但这些总和超过了总数。这是什么意思?它们是否与10倍CV后分类器的性能有关 outlook sunny 3.0 4.0 overcast 5.0 1.0 rainy 4.0

我将WEKA与“weather.arff”数据集一起使用,然后我应用了朴素贝叶斯分类器,并进行了10倍交叉验证,正如您在给定的快照中所看到的那样。除了我在照片上标记为红色的东西外,我几乎了解所有的东西

总共有
9(是)+5(否)=14
,但这些总和超过了总数。这是什么意思?它们是否与10倍CV后分类器的性能有关

outlook
  sunny             3.0     4.0
  overcast          5.0     1.0
  rainy             4.0     3.0
  [total]          12.0     8.0
这里的总数是
20.0
,但我们有
14个
实例? 晴天、阴天和雨天这些都算什么? 他们来自哪里

这个加权和是多少?如何计算以及与NB的关系如何


有一个关于10倍交叉验证的解释

随机选择10组数据,分为90%的训练数据和10%的测试数据。由于要处理14行数据,可能需要12行用于培训,2行用于测试。在运行所有10个测试之后,将有20个结果。这对于有关前景的数据来说是有意义的,但windy的18个总数使这一理论受到质疑


我相信图片顶部的0.63和0.38代表了10项测试中是和否答案的百分比。

我找到了问题的答案。这个问题被称为“零频率问题”,WEKA所做的是将每个属性值相加1。原因是为了避免0概率。否则,当乘以概率时,整个概率将变为0。事实上,概率为零并不能推断出任何关于该案例的新信息。此外,它既不需要进行大量的“交叉验证”迭代,也不需要进行CV性能评估

outlook                Yes            No
  sunny             (2+1)=3.0     (3+1)=4.0
  overcast          (4+1)=5.0     (0+1)=1.0
  rainy             (3+1)=4.0     (2+1)=3.0
  [total]             12.0           8.0
实际实例=9+5=14

另一件重要的事情是,WEKA对所有属性都这样做,在这种情况下是对阴天、温度、湿度和大风