Python 类别权重与欠采样/过采样

Python 类别权重与欠采样/过采样,python,scikit-learn,classification,imblearn,Python,Scikit Learn,Classification,Imblearn,在不平衡分类(使用scikit学习)中,例如,平衡类(即将类_权重设置为平衡)与SMOTE过采样有什么区别? 一个与另一个的预期效果是什么?类权重通过对权重更大(或更少)的类给予更多(或更少)惩罚,直接修改损失函数。实际上,一种方法是通过故意偏袒模型以支持更准确地预测权重较高的类别(少数类别),从而基本上牺牲了预测权重较低类别(不平衡数据集的多数类别)的能力 过采样和欠采样方法本质上也赋予了特定类别更多的权重(重复观测会重复对这些特定观测的惩罚,使它们在模型拟合中产生更大的影响),但由于数据分裂

在不平衡分类(使用scikit学习)中,例如,平衡类(即将类_权重设置为平衡)与SMOTE过采样有什么区别?
一个与另一个的预期效果是什么?

类权重通过对权重更大(或更少)的类给予更多(或更少)惩罚,直接修改损失函数。实际上,一种方法是通过故意偏袒模型以支持更准确地预测权重较高的类别(少数类别),从而基本上牺牲了预测权重较低类别(不平衡数据集的多数类别)的能力

过采样和欠采样方法本质上也赋予了特定类别更多的权重(重复观测会重复对这些特定观测的惩罚,使它们在模型拟合中产生更大的影响),但由于数据分裂通常发生在训练中,这也会产生稍微不同的结果

请参阅