Scikit learn 改进高度不平衡数据集分类问题的结果
我正在使用sklearn运行LinearSVC模型来解决我在不平衡数据集上的分类问题,结果如下:Scikit learn 改进高度不平衡数据集分类问题的结果,scikit-learn,svm,Scikit Learn,Svm,我正在使用sklearn运行LinearSVC模型来解决我在不平衡数据集上的分类问题,结果如下: confusion matrix: [[43677 28222] [ 5309 9575]] classification report: precision recall f1-score support class 0: 0.72 0.69 0.71 133958 class 1: 0.70 0.7
confusion matrix:
[[43677 28222]
[ 5309 9575]]
classification report:
precision recall f1-score support
class 0: 0.72 0.69 0.71 133958
class 1: 0.70 0.73 0.72 133958
micro avg 0.71 0.71 0.71 267916
macro avg 0.71 0.71 0.71 267916
weighted avg 0.71 0.71 0.71 267916
precision recall f1-score support
class 0: 0.89 0.61 0.72 71899
class 1: 0.25 0.64 0.36 14884
micro avg 0.61 0.61 0.61 86783
macro avg 0.57 0.63 0.54 86783
weighted avg 0.78 0.61 0.66 86783
看看结果,你有什么建议让我改进吗?(我使用过采样方法来平衡训练数据集)
我所关心的是从数据中过滤掉类1中的所有实例,我应该只查看类1的精度/召回率,还是应该使用任何其他指标来评估我的模型有多好?过采样不会一直有帮助(即,它只是复制样本以平衡数据)。 尝试不同的方法,例如“合成少数超采样技术”。
有关更多详细信息,请参阅以下内容,过采样不会一直有帮助(即,它只是复制样本以平衡数据)。 尝试不同的方法,例如“合成少数超采样技术”。
有关更多详细信息,请参阅以下内容,
class\u weight
从带过采样和不带过采样开始应是第一件要尝试的事情。class\u weight
从带过采样和不带过采样开始应是第一件要尝试的事情。