Statistics 数据挖掘与不平衡类
我有不平衡的记录类别,数据如下:Statistics 数据挖掘与不平衡类,statistics,classification,cluster-analysis,data-mining,decision-tree,Statistics,Classification,Cluster Analysis,Data Mining,Decision Tree,我有不平衡的记录类别,数据如下: X Y Z Class 1 4 Good A 3 5 Very Good A 7 6 Good A 8 7 Excellent A 4 8 Pass A 3 7 Good A 34 6 Good A 1 5 Very Good A 4 3
X Y Z Class
1 4 Good A
3 5 Very Good A
7 6 Good A
8 7 Excellent A
4 8 Pass A
3 7 Good A
34 6 Good A
1 5 Very Good A
4 3 Excellent B
4 4 Excellent B
我想预测班级:
我建议研究SMOTE(合成少数过采样技术)。此技术通过替换从训练数据集中的少数实例集中随机选择。然后将这些选定实例作为副本添加到训练数据集中,从而产生更平衡的类,从而防止分类器学习仅预测大多数类 根据您使用的软件或模块,以及是否需要专门使用决策树,可能还有其他选项。例如,支持向量机(同样取决于所使用的软件或模块)通常具有指定特定类别成本的能力。为了解决您所涉及的问题,您可以简单地为少数类指定更高的成本(即惩罚)
希望有帮助 决策树可以很好地处理不平衡数据。事实上,每一次分裂,他们都试图最大化不平衡(又名:纯度)。