Scikit learn 改进高度不平衡数据集分类问题的结果

Scikit learn 改进高度不平衡数据集分类问题的结果,scikit-learn,svm,Scikit Learn,Svm,我正在使用sklearn运行LinearSVC模型来解决我在不平衡数据集上的分类问题,结果如下: confusion matrix: [[43677 28222] [ 5309 9575]] classification report: precision recall f1-score support class 0: 0.72 0.69 0.71 133958 class 1: 0.70 0.7

我正在使用sklearn运行LinearSVC模型来解决我在不平衡数据集上的分类问题,结果如下:

confusion matrix:
[[43677 28222]
 [ 5309  9575]]

classification report:
   precision    recall  f1-score   support

   class 0:       0.72      0.69      0.71    133958
   class 1:       0.70      0.73      0.72    133958

   micro avg       0.71      0.71      0.71    267916
   macro avg       0.71      0.71      0.71    267916
weighted avg       0.71      0.71      0.71    267916

               precision    recall  f1-score   support

class 0:       0.89      0.61      0.72     71899
class 1:       0.25      0.64      0.36     14884

    micro avg       0.61      0.61      0.61     86783
    macro avg       0.57      0.63      0.54     86783
 weighted avg       0.78      0.61      0.66     86783
看看结果,你有什么建议让我改进吗?(我使用过采样方法来平衡训练数据集)


我所关心的是从数据中过滤掉类1中的所有实例,我应该只查看类1的精度/召回率,还是应该使用任何其他指标来评估我的模型有多好?

过采样不会一直有帮助(即,它只是复制样本以平衡数据)。 尝试不同的方法,例如“合成少数超采样技术”。
有关更多详细信息,请参阅以下内容,

过采样不会一直有帮助(即,它只是复制样本以平衡数据)。 尝试不同的方法,例如“合成少数超采样技术”。
有关更多详细信息,请参阅以下内容,

class\u weight
从带过采样和不带过采样开始应是第一件要尝试的事情。
class\u weight
从带过采样和不带过采样开始应是第一件要尝试的事情。