Machine learning 如何避免训练数据中的过度拟合?
我是生物信息学的一个项目,在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集,那么积极的例子将完全超过消极的例子。因此,在测试数据分类期间,我的负面数据也被错误分类为正面数据Machine learning 如何避免训练数据中的过度拟合?,machine-learning,Machine Learning,我是生物信息学的一个项目,在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集,那么积极的例子将完全超过消极的例子。因此,在测试数据分类期间,我的负面数据也被错误分类为正面数据 有没有简单的方法来平衡这些正负数据来解决这个问题?这是一个非常广泛的问题,但一般来说,您可以大致区分以下处理过度拟合的方法: (具体类型取决于近似器/分类器) (基于验证集) (选择最有可能具有最佳泛化的模型) 在不平衡训练示例的情况下,已报告一个分类器与所有分类
有没有简单的方法来平衡这些正负数据来解决这个问题?这是一个非常广泛的问题,但一般来说,您可以大致区分以下处理过度拟合的方法:
- (具体类型取决于近似器/分类器)
- (基于验证集)
- (选择最有可能具有最佳泛化的模型)
然而,我要说的是,使用非常大的训练集使得模型不太可能过度拟合训练数据。有趣的问题。我快速搜索了一下,找到了这个,希望能有所帮助:这个问题似乎离题了,因为它是关于统计的。也许应该在交叉路口询问一下。丹尼斯·贾鲁丁:这不是统计数字。正如标签上明确指出的那样,这是关于机器学习的。过度拟合也是该领域的一个主要问题。我同意这张表格不太适合。抱歉,伙计们,我已经把我的查询做得更具体了。嗨,谢谢,我已经把我的问题修改得更具体了。我使用基于SVM的weka进行分类。我不能分配calss权重方法,我想,我需要找到一种方法,使数据集在正负之间保持平衡。“提前停止”是正则化的子集吗?@jong hyunYeo是的,似乎是这样。直觉上,它属于一个单独的类别,因为无论您使用的模型的细节如何,您都可以以相同的方式使用它。