Statistics 数据挖掘与不平衡类

Statistics 数据挖掘与不平衡类,statistics,classification,cluster-analysis,data-mining,decision-tree,Statistics,Classification,Cluster Analysis,Data Mining,Decision Tree,我有不平衡的记录类别,数据如下: X Y Z Class 1 4 Good A 3 5 Very Good A 7 6 Good A 8 7 Excellent A 4 8 Pass A 3 7 Good A 34 6 Good A 1 5 Very Good A 4 3

我有不平衡的记录类别,数据如下:

X   Y   Z            Class
1   4   Good           A
3   5   Very Good      A
7   6   Good           A
8   7   Excellent      A
4   8   Pass           A
3   7   Good           A
34  6   Good           A
1   5   Very Good      A
4   3   Excellent      B
4   4   Excellent      B
我想预测班级:

  • 什么是最好的数据挖掘技术
  • 我使用了决策树,但不幸的是,我遇到了记录不平衡的问题,无法对数据进行分类

  • 我建议研究SMOTE(合成少数过采样技术)。此技术通过替换从训练数据集中的少数实例集中随机选择。然后将这些选定实例作为副本添加到训练数据集中,从而产生更平衡的类,从而防止分类器学习仅预测大多数类

    根据您使用的软件或模块,以及是否需要专门使用决策树,可能还有其他选项。例如,支持向量机(同样取决于所使用的软件或模块)通常具有指定特定类别成本的能力。为了解决您所涉及的问题,您可以简单地为少数类指定更高的成本(即惩罚)


    希望有帮助

    决策树可以很好地处理不平衡数据。事实上,每一次分裂,他们都试图最大化不平衡(又名:纯度)。