Machine learning 如何处理分类中的低频示例?

Machine learning 如何处理分类中的低频示例?,machine-learning,classification,Machine Learning,Classification,我面临一个文本分类问题,我需要将示例分为34组 问题是,34组的训练数据规模不均衡。对于某些组,我有2000多个示例,而对于某些组,我只有100多个示例 对于一些小群体,分类精度相当高。我猜这些群体可能有特定的关键词需要识别和分类。而对一些人来说,准确率很低,而且预测总是针对大群体 我想知道如何处理“低频示例问题”。是否会简单地复制和复制小组数据工作?或者我需要选择训练数据并扩展和平衡数据大小?有什么建议吗?正则化有时可以通过减少虚假相关性的影响来帮助不平衡的课堂问题,但这取决于你的数据。一种解

我面临一个文本分类问题,我需要将示例分为34组

问题是,34组的训练数据规模不均衡。对于某些组,我有2000多个示例,而对于某些组,我只有100多个示例

对于一些小群体,分类精度相当高。我猜这些群体可能有特定的关键词需要识别和分类。而对一些人来说,准确率很低,而且预测总是针对大群体


我想知道如何处理“低频示例问题”。是否会简单地复制和复制小组数据工作?或者我需要选择训练数据并扩展和平衡数据大小?有什么建议吗?

正则化有时可以通过减少虚假相关性的影响来帮助不平衡的课堂问题,但这取决于你的数据。一种解决方案是简单地对较小的类进行过采样,或者增加较小类中数据点的权重,以迫使分类器更加关注它


通过搜索“类不平衡”问题,您可以找到更高级的技术。虽然它们中的许多并没有被应用/创建用于文本分类问题,因为在处理文本问题时拥有大量数据是非常常见的。所以我不确定有多少能在如此高维的空间中很好地工作

这个问题似乎离题了,因为它更多的是关于统计,而不是关于编程。试试stats.stackexchange.com或metaoptimize.com/qa@larsmans+1。对于OP:如果您有特定于实现的问题,例如WEKA.learn,这里将是正确的位置。谢谢大家@拉斯曼斯也+1。这与统计无关,而是分类中面临的一个实现问题。过度采样是否会导致过度拟合?可能是的,但如果您在类不平衡的情况下遇到过度拟合问题,那么您可能不会遇到类不平衡的大问题。如果类的不平衡导致了学习算法的问题,那么它要么首先没有很好地学习分布,要么较小的类实际上从来都不是最可能的类。但同样,过采样是一种简单的技术。这决不是解决办法,这只是第一步。这里的答案非常清楚。