Machine learning 关于使用朴素贝叶斯分类，改进结果_Machine Learning_Weka

Machine learning 关于使用朴素贝叶斯分类，改进结果

machine-learning

Machine learning 关于使用朴素贝叶斯分类，改进结果,machine-learning,weka,Machine Learning,Weka,我有一个数据集，有10个类，每个类40个示例，总共400个示例。我为每个示例提取了大约27个特征。我使用了朴素贝叶斯分类器，使用十倍交叉验证，获得了96.75%的准确率我从混淆矩阵中注意到，十个类中只有两个类混淆了几个示例，而其他类的分类总是正确的。然后，我决定删除除这两个类之外的所有其他类，保留相同数量的特征，并重新运行朴素贝叶斯分类器；它总是能够将示例正确地分为两类我很困惑为什么会发生这种情况，以及如何改进我的整体分类器。我并没有真正期望贝叶斯分类器能够更好地预测这两个类。我尝试了各种

我有一个数据集，有10个类，每个类40个示例，总共400个示例。我为每个示例提取了大约27个特征。我使用了朴素贝叶斯分类器，使用十倍交叉验证，获得了96.75%的准确率

我从混淆矩阵中注意到，十个类中只有两个类混淆了几个示例，而其他类的分类总是正确的。然后，我决定删除除这两个类之外的所有其他类，保留相同数量的特征，并重新运行朴素贝叶斯分类器；它总是能够将示例正确地分为两类

我很困惑为什么会发生这种情况，以及如何改进我的整体分类器。我并没有真正期望贝叶斯分类器能够更好地预测这两个类。我尝试了各种折叠组合，百分比分割，它总是在没有其他8个类的情况下正确地分类这两个问题类。我是不是在谈论分类的boosting/bagging/integration方法？我的策略应该是使用一个分类器处理问题类，而使用另一个分类器处理其余的类吗？我想我本想做一个能处理一切的分类器

这两门难学的课程可能完全或部分被另一门课程所掩盖。删除其他类可能使您能够区分这两个类，但从整个数据中分离这两个类可能仍然很困难

你可以想象下面的情况是真的，蓝色的圆点被红色遮住了。去除红点使蓝点和黑点很容易分开

为了了解您是否会像您建议的那样从多个分类器中获益，我将把两个困难的类合并为一个，并在其他类存在的情况下检查您的分类能力。如果你能够准确地做到这一点，那么你可以自信地继续使用多分类器