Machine learning 与'混淆;混淆矩阵';在韦卡

Machine learning 与'混淆;混淆矩阵';在韦卡,machine-learning,weka,confusion-matrix,Machine Learning,Weka,Confusion Matrix,我正在LingSpam数据集上运行SVM分类器,我在WEKA中得到了以下混淆矩阵: 如果我们考虑合法->阳性类和垃圾邮件>否定类,则真阳性=2405,真阴性=470。< /P> 但我对假阴性和假阳性感到困惑。如果您阅读“混淆表”部分,似乎误报=11,误报=7。但如果您阅读(请使用Ctrl+F并搜索“所有这些数字的含义是什么?”),则似乎误报=7,误报=11 我很困惑:(.请帮帮我!而且,在WEKA中,IR_精度和IR_召回是什么?是合法_精度和合法_召回还是垃圾邮件_精度和垃圾邮件_召回 注意

我正在LingSpam数据集上运行SVM分类器,我在WEKA中得到了以下混淆矩阵:

如果我们考虑合法->阳性类和垃圾邮件>否定类,则真阳性=2405,真阴性=470。< /P> 但我对假阴性和假阳性感到困惑。如果您阅读“混淆表”部分,似乎误报=11,误报=7。但如果您阅读(请使用Ctrl+F并搜索“所有这些数字的含义是什么?”),则似乎误报=7,误报=11

我很困惑:(.请帮帮我!而且,在WEKA中,IR_精度和IR_召回是什么?是合法_精度和合法_召回还是垃圾邮件_精度和垃圾邮件_召回


注意:将合法电子邮件视为积极类,将垃圾邮件视为消极类。

这取决于您对“积极”类的定义。“合法”并没有什么特别之处,这意味着它是积极类;您可以采用任何一种方式

在这里,将“垃圾邮件”称为积极类更为传统,因为它是您检测到的不寻常属性。在该解释中,有470个真正的积极类,等等。在您的解释中,有2405个。这本身都没有错,但再次强调,将“垃圾邮件”视为积极类可能更为习惯


关于精确性和召回率的答案是一样的。这是针对肯定类的,但取决于你使用了什么作为肯定类。如果你输入这个混淆矩阵,它将寻找“合法”的精确性和召回率首先,如果你仔细看看关于垃圾邮件分类问题的研究文章,几乎所有的文章都将垃圾邮件定义为积极的,而将火腿定义为消极的。在你的例子中,情况正好相反。因此,这有可能让读者感到困惑

然而,Weka混淆矩阵是完全正确的。以下是根据经典垃圾邮件分类任务对正面和负面的定义:

True positives: original label spam, predicted label spam (very good)
False positives: original label ham, predicted label spam (very dangerous)
False negatives: original label spam, predicted label ham (less dangerous)
True negatives: original label hams, predicted labels ham (very good)
在您的情况下(如果您想与经典垃圾邮件分类任务中所说的内容进行比较)

把混淆矩阵颠倒过来,这样读吧。我认为主要的混淆来自于你对积极和消极的定义


希望能有所帮助。

这可能会更好,谢谢Sean!因此Weka报告的IR_精度和IR_召回率是合法类的精度和召回率。但是您还没有告诉我FP和FN。这个矩阵中的FP和FN是什么?问题中有两个链接,如果您愿意阅读,FP和FN有两种不同的可能性.FP和FN是混淆矩阵中右上角和左下角的条目。定义“积极”后,它就不再含糊不清了!没有固有的积极类。如果你将狗和猫分类,哪一个是积极的呢?答案是你选择的积极的那一个。在这里,你选择了“合法的”积极。这很好,但不是传统。但考虑到这个选择,这一点绝不含糊。在第一个链接中,猫被视为积极类,其他动物或狗被视为消极类。FP是左下角,FN是右上角的条目!(反对你所说的!)然而,在链接2中,FP和FN分别是右上角和左下角的条目(如您所述),a为正类,b为负类。这就是我真正的困惑所在!此外,在查看Weka实验者的结果后,它显示左上角的值为FN,右下角的值为FP!我现在真的很困惑!此外,我在谷歌搜索时读到了Weka在困惑矩阵中给出的关于TP、FP等的结果有些模糊。请引导我对此不确定,但在你在问题中发布的内容中,“真实”单元格肯定是左上角和右下角。因为这就是预测=实际的位置。
True positives: 470
False positives: 7
False negatives: 11
True negatives: 2405