Optimization 面向一类的分类精度优化?

Optimization 面向一类的分类精度优化?,optimization,machine-learning,classification,resampling,Optimization,Machine Learning,Classification,Resampling,我的数据集有两个类。不感兴趣的占90%,感兴趣的占10%左右 我已经做了重采样,不仅一次,而且还做了大量的平衡集(例如10集)。并进行多数投票以获得最终预测结果。在比较了多种模型后,tree给出了最好的结果。我已经根据重要性得分选出了最重要的特征 总体准确率不错,为75%,但对我感兴趣的类的准确率只有30%,这是不好的。如何优化目标类的精度?我认为ctree包在R中的算法是为了对整体精度进行优化。我也尝试过一类分类,比如svm,但不太好。顺便说一句,我同时使用了R和python。但我没有找到任何

我的数据集有两个类。不感兴趣的占90%,感兴趣的占10%左右

我已经做了重采样,不仅一次,而且还做了大量的平衡集(例如10集)。并进行多数投票以获得最终预测结果。在比较了多种模型后,tree给出了最好的结果。我已经根据重要性得分选出了最重要的特征


总体准确率不错,为75%,但对我感兴趣的类的准确率只有30%,这是不好的。如何优化目标类的精度?我认为ctree包在R中的算法是为了对整体精度进行优化。我也尝试过一类分类,比如svm,但不太好。顺便说一句,我同时使用了R和python。但我没有找到任何与我的问题相关的软件包。我是否需要编写自己的树算法来优化感兴趣的类的精度?谢谢。

有很多型号可以让你在课上增加体重。一般来说,这比过采样要好,因为它直接改变目标,而不是人为地欺骗模型。如果您使用python,并且像基于树的方法一样,scikit learn中的Random Forest具有类权重功能,只要未达到所需的精度,就可以对少数类进行加码。

但一般来说,权重类与重采样的作用相同吗?因此,我跳过了过采样步骤,直接在我的不平衡数据集上构建模型,并添加权重?不,在倾斜中重新采样,不应用于支持权重的模型。它们相似但不相同。欠采样是加权的近似值,但只是近似值。基本形式的过采样也只是大致近似(特别是对于一些交互方法),一些过采样通过引入人工样本做得更多