Performance 在WEKA中评估模型
我在数据集上应用了分类算法,得出了以下统计数据:Performance 在WEKA中评估模型,performance,machine-learning,classification,weka,Performance,Machine Learning,Classification,Weka,我在数据集上应用了分类算法,得出了以下统计数据: Correctly Classified Instances 684 76.1693 % Incorrectly Classified Instances 214 23.8307 % Kappa statistic 0 Mean absolute error 0.
Correctly Classified Instances 684 76.1693 %
Incorrectly Classified Instances 214 23.8307 %
Kappa statistic 0
Mean absolute error 0.1343
Root mean squared error 0.2582
Relative absolute error 100 %
Root relative squared error 100 %
Total Number of Instances 898
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0 0 0 0 0 0.5 1
0 0 0 0 0 0.5 2
1 1 0.762 1 0.865 0.5 3
0 0 0 0 0 ? 4
0 0 0 0 0 0.5 5
0 0 0 0 0 0.5 U
Weighted Avg. 0.762 0.762 0.58 0.762 0.659 0.5
=== Confusion Matrix ===
a b c d e f <-- classified as
0 0 8 0 0 0 | a = 1
0 0 99 0 0 0 | b = 2
0 0 684 0 0 0 | c = 3
0 0 0 0 0 0 | d = 4
0 0 67 0 0 0 | e = 5
0 0 40 0 0 0 | f = U
我可以理解大部分数据,但由于我是Weka新手,因此在解释这些值时存在问题:
1.总体报告的错误率是多少?
2.如何解释模型是否有趣?1总体误差度量
由于每个数字代表模型的不同方面,因此经常报告三重精度、召回率和F-测量
如果只想有一个数字,则采用错误分类实例的百分比或加权平均F值
其他误差度量也很有用,但它们需要我所缺乏的更深入的统计知识:-
2.这个模型有什么有趣的地方吗
从类和混淆矩阵的详细精度可以看出,该模型非常简单。它把所有的东西都归为3类。错误度量看起来相当成功,但这只是因为数据集中76%的实例具有类3。该模型与常用的基线算法(称为最常见类)相对应。1总体误差度量
由于每个数字代表模型的不同方面,因此经常报告三重精度、召回率和F-测量
如果只想有一个数字,则采用错误分类实例的百分比或加权平均F值
其他误差度量也很有用,但它们需要我所缺乏的更深入的统计知识:-
2.这个模型有什么有趣的地方吗
从类和混淆矩阵的详细精度可以看出,该模型非常简单。它把所有的东西都归为3类。错误度量看起来相当成功,但这只是因为数据集中76%的实例具有类3。该模型与常用的基线算法(称为最常见类)相对应。ROC区域在评估准确性和解释模型的有趣程度方面也很有用。简单地说,真阳性率与假阳性率相对应,ROC面积计算为曲线下方的面积。高ROC区域(例如0.9到1)表示模型非常擅长分类实例,而在您的模型中,ROC区域为0.5表示模型在分类方面并不比抛硬币这样的随机方法更好。ROC区域在评估准确性和解释模型有多有趣方面也很有用。简单地说,真阳性率与假阳性率相对应,ROC面积计算为曲线下方的面积。ROC区域高,比如说0.9到1,表示模型非常擅长分类实例,而ROC区域为0.5表示模型在分类方面并不比抛硬币这样的随机方法更好。似乎你的ML模型什么都学不到,只预测c类的所有考试分数。似乎你的ML模型什么都学不到,只预测c类的所有考试分数。