Python 在不平衡数据集中最大化多数类的预测精度

Python 在不平衡数据集中最大化多数类的预测精度,python,optimization,classification,data-science,Python,Optimization,Classification,Data Science,当谈到不平衡数据集时,大多数文章都会提到最大化少数群体的预测(例如欺诈检测)。我有一个不平衡的数据集(比例约为1:20)。我感兴趣的是为多数类实现最高的预测精度。我的工作是Python。我研究过的可能解决方案有: 少数群体的过抽样 更改某些分类模型的损失/成本矩阵 使用每种方法的优缺点是什么?还有其他方法我可以试试吗?你想得不对。如果你所关心的只是多数阶级,你可以预测一切都属于多数阶级。你会得到100%的正确答案。你会有很多误报,但你不在乎这些,对吗 啊,如果你真的关心假阳性,那就意味着你实

当谈到不平衡数据集时,大多数文章都会提到最大化少数群体的预测(例如欺诈检测)。我有一个不平衡的数据集(比例约为1:20)。我感兴趣的是为多数类实现最高的预测精度。我的工作是Python。我研究过的可能解决方案有:

  • 少数群体的过抽样
  • 更改某些分类模型的损失/成本矩阵

使用每种方法的优缺点是什么?还有其他方法我可以试试吗?

你想得不对。如果你所关心的只是多数阶级,你可以预测一切都属于多数阶级。你会得到100%的正确答案。你会有很多误报,但你不在乎这些,对吗

啊,如果你真的关心假阳性,那就意味着你实际上关心的是少数族裔。你对少数群体的预测越准确,误报就越少

这是一枚硬币的两面