Machine learning NaiveBayes、J48和RandomTree在外行中';s条款

Machine learning NaiveBayes、J48和RandomTree在外行中';s条款,machine-learning,weka,Machine Learning,Weka,我很难理解这两个分类器在引擎盖下是如何工作的。到目前为止,我已经推断出NaiveBayes通过“解耦”多个证据来预测结果,并将每个证据视为独立的。但是,与另一种分类算法(如J48或RandomTree)相比,它们之间到底有什么不同 例如,下表显示了两个数据集中正确分类的实例的百分比。我可以得出结论,选择的这两个分类器都最适合于人工数据集,因为与糖尿病数据集相比,它们都可以正确地分类更多的实例 然而,如下所示,NaiveBayes在Glass数据集上的表现非常糟糕。这背后的原因是什么?是否取决于

我很难理解这两个分类器在引擎盖下是如何工作的。到目前为止,我已经推断出NaiveBayes通过“解耦”多个证据来预测结果,并将每个证据视为独立的。但是,与另一种分类算法(如J48或RandomTree)相比,它们之间到底有什么不同

例如,下表显示了两个数据集中正确分类的实例的百分比。我可以得出结论,选择的这两个分类器都最适合于人工数据集,因为与糖尿病数据集相比,它们都可以正确地分类更多的实例

然而,如下所示,NaiveBayes在Glass数据集上的表现非常糟糕。这背后的原因是什么?是否取决于数据集中出现异常的可能性(即我们可能通过标准偏差或平均值确定的异常)

有没有人能够提供一个外行的描述这两个分类器,关于上述结果

(抱歉,由于我的声誉不好,我无法发布图像)。

在glass数据集中,所有值(除了“RI”)都是百分比,每行的总和约为100%。因此,根据定义,它们不是独立的

例如,如果一个玻璃含有50%的硅(Si)和30%的铝,这两种成分单独就占理论100%的80%。因此,对于所有其他元素(镁、铁、钠、钾等),剩下的100%只剩下20%。因此,Si值将倾向于自动与任何次要元素负相关,次要元素将倾向于相互关联

在环境统计中,这被称为“封闭数据”问题。阅读本文的介绍了解更多信息:(我只是在谷歌上搜索了一下)


解决这一问题的一种方法是测量微量元素的浓度,您需要在stats.stackexchange.com上询问。全部完成-