Neural network 基于不平衡数据集的神经网络输出校正
我有一个包含4个类的数据集,假设它们在训练集中的分布是Neural network 基于不平衡数据集的神经网络输出校正,neural-network,imbalanced-data,Neural Network,Imbalanced Data,我有一个包含4个类的数据集,假设它们在训练集中的分布是 p_{prior}(C1)=60% p_{prior}(C2)=25% p{prior}(C3)=10% p_{prior}(C4)=5% 我在数据集上训练了一个CNN(无重采样,即网络在真实分布上训练),现在我想预测看不见的数据。通常,我们将数据分配给得分/概率最高的班级,但假设我从网络中获得一个关于未看到数据的结果,$X$as: p(C1)=50% p(C2)=10% p(C3)=10% p(C4)=30% 我们在此注意到,C4的概率比
p_{prior}(C1)=60%
p_{prior}(C2)=25%
p{prior}(C3)=10%
p_{prior}(C4)=5%
我在数据集上训练了一个CNN(无重采样,即网络在真实分布上训练),现在我想预测看不见的数据。通常,我们将数据分配给得分/概率最高的班级,但假设我从网络中获得一个关于未看到数据的结果,$X$as:
p(C1)=50%
p(C2)=10%
p(C3)=10%
p(C4)=30%
我们在此注意到,C4
的概率比随机C4
的概率大6个计时器,C1
的概率比随机C1
的概率低。因此,我建议将标签设置为C4
,即使P(C1)>P(C4)
我的问题是,;这是错误的吗?我们总是选择最高的分数,还是通过他们的先验分布(即设置)来衡量每个结果是有意义的
f(C1)=p(C1)/p{prior}(C1)=0,83
f(C2)=p(C2)/p{prior}(C2)=0,4
f(C3)=p(C3)/p{prior}(C3)=1
f(C4)=p(C4)/p{prior}(C4)=6
现在在此处指定f分数最高的标签,即C4
(如果是平局,则选择较大的p(Ci)
)