Machine learning 如何避免训练数据中的过度拟合?

Machine learning 如何避免训练数据中的过度拟合?,machine-learning,Machine Learning,我是生物信息学的一个项目,在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集,那么积极的例子将完全超过消极的例子。因此,在测试数据分类期间,我的负面数据也被错误分类为正面数据 有没有简单的方法来平衡这些正负数据来解决这个问题?这是一个非常广泛的问题,但一般来说,您可以大致区分以下处理过度拟合的方法: (具体类型取决于近似器/分类器) (基于验证集) (选择最有可能具有最佳泛化的模型) 在不平衡训练示例的情况下,已报告一个分类器与所有分类

我是生物信息学的一个项目,在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集,那么积极的例子将完全超过消极的例子。因此,在测试数据分类期间,我的负面数据也被错误分类为正面数据


有没有简单的方法来平衡这些正负数据来解决这个问题?

这是一个非常广泛的问题,但一般来说,您可以大致区分以下处理过度拟合的方法:

  • (具体类型取决于近似器/分类器)

  • (基于验证集)

  • (选择最有可能具有最佳泛化的模型)

在不平衡训练示例的情况下,已报告一个分类器与所有分类器的集合产生了良好的结果(例如)。您还可以使用抽样技术(通过谷歌可以找到许多不同的命题)。

您可以尝试“类权重”方法,在这种方法中,较小的类获得更多的权重,从而为错误分类负面标签的类付出更大的代价

此外,如果您使用logistic分类器,您可以调整正/负预测的阈值,并观察其变化,然后使用交叉验证数据在两者之间进行权衡


然而,我要说的是,使用非常大的训练集使得模型不太可能过度拟合训练数据。

有趣的问题。我快速搜索了一下,找到了这个,希望能有所帮助:这个问题似乎离题了,因为它是关于统计的。也许应该在交叉路口询问一下。丹尼斯·贾鲁丁:这不是统计数字。正如标签上明确指出的那样,这是关于机器学习的。过度拟合也是该领域的一个主要问题。我同意这张表格不太适合。抱歉,伙计们,我已经把我的查询做得更具体了。嗨,谢谢,我已经把我的问题修改得更具体了。我使用基于SVM的weka进行分类。我不能分配calss权重方法,我想,我需要找到一种方法,使数据集在正负之间保持平衡。“提前停止”是正则化的子集吗?@jong hyunYeo是的,似乎是这样。直觉上,它属于一个单独的类别,因为无论您使用的模型的细节如何,您都可以以相同的方式使用它。