Machine learning 关于使用朴素贝叶斯分类,改进结果

Machine learning 关于使用朴素贝叶斯分类,改进结果,machine-learning,weka,Machine Learning,Weka,我有一个数据集,有10个类,每个类40个示例,总共400个示例。 我为每个示例提取了大约27个特征。我使用了朴素贝叶斯分类器,使用十倍交叉验证,获得了96.75%的准确率 我从混淆矩阵中注意到,十个类中只有两个类混淆了几个示例,而其他类的分类总是正确的。然后,我决定删除除这两个类之外的所有其他类,保留相同数量的特征,并重新运行朴素贝叶斯分类器;它总是能够将示例正确地分为两类 我很困惑为什么会发生这种情况,以及如何改进我的整体分类器。我并没有真正期望贝叶斯分类器能够更好地预测这两个类。我尝试了各种

我有一个数据集,有10个类,每个类40个示例,总共400个示例。 我为每个示例提取了大约27个特征。我使用了朴素贝叶斯分类器,使用十倍交叉验证,获得了96.75%的准确率

我从混淆矩阵中注意到,十个类中只有两个类混淆了几个示例,而其他类的分类总是正确的。然后,我决定删除除这两个类之外的所有其他类,保留相同数量的特征,并重新运行朴素贝叶斯分类器;它总是能够将示例正确地分为两类

我很困惑为什么会发生这种情况,以及如何改进我的整体分类器。我并没有真正期望贝叶斯分类器能够更好地预测这两个类。我尝试了各种折叠组合,百分比分割,它总是在没有其他8个类的情况下正确地分类这两个问题类。我是不是在谈论分类的boosting/bagging/integration方法?我的策略应该是使用一个分类器处理问题类,而使用另一个分类器处理其余的类吗?我想我本想做一个能处理一切的分类器

这两门难学的课程可能完全或部分被另一门课程所掩盖。删除其他类可能使您能够区分这两个类,但从整个数据中分离这两个类可能仍然很困难

你可以想象下面的情况是真的,蓝色的圆点被红色遮住了。去除红点使蓝点和黑点很容易分开

为了了解您是否会像您建议的那样从多个分类器中获益,我将把两个困难的类合并为一个,并在其他类存在的情况下检查您的分类能力。如果你能够准确地做到这一点,那么你可以自信地继续使用多分类器