Python 类别权重与欠采样/过采样_Python_Scikit Learn_Classification_Imblearn

Python 类别权重与欠采样/过采样

python scikit-learn

Python 类别权重与欠采样/过采样,python,scikit-learn,classification,imblearn,Python,Scikit Learn,Classification,Imblearn,在不平衡分类（使用scikit学习）中，例如，平衡类（即将类_权重设置为平衡）与SMOTE过采样有什么区别？一个与另一个的预期效果是什么？类权重通过对权重更大（或更少）的类给予更多（或更少）惩罚，直接修改损失函数。实际上，一种方法是通过故意偏袒模型以支持更准确地预测权重较高的类别（少数类别），从而基本上牺牲了预测权重较低类别（不平衡数据集的多数类别）的能力过采样和欠采样方法本质上也赋予了特定类别更多的权重（重复观测会重复对这些特定观测的惩罚，使它们在模型拟合中产生更大的影响），但由于数据分裂

在不平衡分类（使用scikit学习）中，例如，平衡类（即将类_权重设置为平衡）与SMOTE过采样有什么区别？

一个与另一个的预期效果是什么？

类权重通过对权重更大（或更少）的类给予更多（或更少）惩罚，直接修改损失函数。实际上，一种方法是通过故意偏袒模型以支持更准确地预测权重较高的类别（少数类别），从而基本上牺牲了预测权重较低类别（不平衡数据集的多数类别）的能力

过采样和欠采样方法本质上也赋予了特定类别更多的权重（重复观测会重复对这些特定观测的惩罚，使它们在模型拟合中产生更大的影响），但由于数据分裂通常发生在训练中，这也会产生稍微不同的结果

请参阅