Machine learning 类别优先级在Weka分类中的作用

Machine learning 类别优先级在Weka分类中的作用,machine-learning,classification,weka,Machine Learning,Classification,Weka,我有一个由1568行组成的数据训练集,每个行都有class属性的七个值中的一个。我试图在第二个168行的数据集上测试这些数据 但我有一个问题。Weka报告称,“等级优先”是: 141.0 169.0 225.0 197.0 421.0 281.0 141.0 我的训练集的每个类属性值的实例数如下: 140 168 224 196 420 280 140 15 18 24 21 45 30 15 除了类优先级与每个类属性值的训练集行数密切相关外,有人能告诉我它们是什么以及它们实际代表什么吗

我有一个由1568行组成的数据训练集,每个行都有class属性的七个值中的一个。我试图在第二个168行的数据集上测试这些数据

但我有一个问题。Weka报告称,“等级优先”是:

141.0
169.0
225.0
197.0
421.0
281.0
141.0
我的训练集的每个类属性值的实例数如下:

140
168
224
196
420
280
140
15
18
24
21
45
30
15
除了类优先级与每个类属性值的训练集行数密切相关外,有人能告诉我它们是什么以及它们实际代表什么吗

测试集的每个类属性值的实例数如下:

140
168
224
196
420
280
140
15
18
24
21
45
30
15

类优先级是对从总体中随机抽样一个实例将生成给定类的概率的估计(不管该实例的任何属性)。Weka假设您的培训数据是从人群中随机抽取的,这样您的培训集中的课程比例就表明了它们在抽样人群中的相对丰度。请注意,Weka报告的不是先验值,而是用于计算先验值的计数。每个计数加1的原因是为了防止在训练数据中未表示特定类的情况下计数为零。所以Weka应该计算每个类的实际优先级

P(c_i) = n_i / (N + C)
其中,
n_i
是类
i
的样本数,
n
是样本总数,
C
是类数

作为先验概率的一个非常简单的例子,考虑将疾病分类,只知道一个人发烧和头痛。这些症状是流感和埃博拉病毒的迹象。但是患流感的人比埃博拉多得多(先前患流感的概率比埃博拉高得多),因此根据这些症状,你可以将这种疾病归类为流感

Weka提供了更新或覆盖默认先验概率的方法。要了解如何在分类中使用先验概率的数学细节,请参阅