Machine learning NaiveBayes、J48和RandomTree在外行中'；s条款_Machine Learning_Weka

Machine learning NaiveBayes、J48和RandomTree在外行中'；s条款

machine-learning

Machine learning NaiveBayes、J48和RandomTree在外行中'；s条款,machine-learning,weka,Machine Learning,Weka,我很难理解这两个分类器在引擎盖下是如何工作的。到目前为止，我已经推断出NaiveBayes通过“解耦”多个证据来预测结果，并将每个证据视为独立的。但是，与另一种分类算法（如J48或RandomTree）相比，它们之间到底有什么不同例如，下表显示了两个数据集中正确分类的实例的百分比。我可以得出结论，选择的这两个分类器都最适合于人工数据集，因为与糖尿病数据集相比，它们都可以正确地分类更多的实例然而，如下所示，NaiveBayes在Glass数据集上的表现非常糟糕。这背后的原因是什么？是否取决于

我很难理解这两个分类器在引擎盖下是如何工作的。到目前为止，我已经推断出NaiveBayes通过“解耦”多个证据来预测结果，并将每个证据视为独立的。但是，与另一种分类算法（如J48或RandomTree）相比，它们之间到底有什么不同

例如，下表显示了两个数据集中正确分类的实例的百分比。我可以得出结论，选择的这两个分类器都最适合于人工数据集，因为与糖尿病数据集相比，它们都可以正确地分类更多的实例

然而，如下所示，NaiveBayes在Glass数据集上的表现非常糟糕。这背后的原因是什么？是否取决于数据集中出现异常的可能性（即我们可能通过标准偏差或平均值确定的异常）

有没有人能够提供一个外行的描述这两个分类器，关于上述结果

（抱歉，由于我的声誉不好，我无法发布图像）。

在glass数据集中，所有值（除了“RI”）都是百分比，每行的总和约为100%。因此，根据定义，它们不是独立的

例如，如果一个玻璃含有50%的硅（Si）和30%的铝，这两种成分单独就占理论100%的80%。因此，对于所有其他元素（镁、铁、钠、钾等），剩下的100%只剩下20%。因此，Si值将倾向于自动与任何次要元素负相关，次要元素将倾向于相互关联

在环境统计中，这被称为“封闭数据”问题。阅读本文的介绍了解更多信息：（我只是在谷歌上搜索了一下）

解决这一问题的一种方法是测量微量元素的浓度，您需要在stats.stackexchange.com上询问。全部完成-