Machine learning 随机蕨类植物的不平衡数据

Machine learning 随机蕨类植物的不平衡数据,machine-learning,computer-vision,classification,Machine Learning,Computer Vision,Classification,对于一个多类问题,机器学习算法(如随机森林和随机蕨类)的数据应该是平衡的,还是在一定程度上不平衡 我以前在任务中使用过随机福利斯。虽然数据不需要平衡,但是如果正样本太少,数据的模式可能会淹没在噪声中。即使是大多数分类方法(random Forrest和ada boost),或多或少都应该有这个缺陷。“过采样”可能是解决这个问题的好办法 也许这篇论文对这类问题很有用,尽管它的主题是逻辑回归。当不均衡改变了类实例的可分性时,就会出现类不平衡的问题。但这种情况在不平衡的数据集中是不会发生的:有时,一个

对于一个多类问题,机器学习算法(如随机森林和随机蕨类)的数据应该是平衡的,还是在一定程度上不平衡

我以前在任务中使用过随机福利斯。虽然数据不需要平衡,但是如果正样本太少,数据的模式可能会淹没在噪声中。即使是大多数分类方法(random Forrest和ada boost),或多或少都应该有这个缺陷。“过采样”可能是解决这个问题的好办法


也许这篇论文对这类问题很有用,尽管它的主题是逻辑回归。

当不均衡改变了类实例的可分性时,就会出现类不平衡的问题。但这种情况在不平衡的数据集中是不会发生的:有时,一个类中的数据越多,就越容易将scarse数据与之区分开来,因为它可以让您更容易地找到哪些特征对创建区分平面有意义(即使您没有使用判别分析,要点是根据类对实例进行分类)

例如,我记得蛋白质分类任务,其中一个类在训练集中有99.1%的实例,但如果你试图使用欠采样方法来缓解这种不平衡,你只会得到更糟糕的结果。这意味着来自第一个类的大量数据定义了较小类中的数据

关于随机林和一般的决策树,它们通过在每一步选择最有希望的特性来工作,该特性可以将集合划分为两个(或更多)类有意义的子集。关于一个类的固有更多数据在默认情况下不会偏向这种划分(=始终)但只有当不平衡不代表阶级的真实分布时


因此,我建议您首先进行多元分析,试图获得数据集中各类之间的不平衡程度,如果您仍有疑问,可以使用不同的欠采样率进行一系列实验。

关于随机蕨类植物呢?如果是重复的,我们是否可以接受其他算法的数据不平衡如你所说,对类的真实分布感到愤恨?即使蕨类植物也遵循这一规则,因为如果实例是可分离的,那么最优贝叶斯分类器肯定会正确地将它们分离。朴素贝叶斯或随机蕨类植物分类器会因缺乏与属性的独立性而更加愤恨,但如果它与类的不平衡无关它不会降低您的性能。正如我所说的,尝试使用多个欠采样集运行它,逐渐增加类的比率,直到达到1:1:1…:1的比率,我会将其迁移到: