Machine learning 如何避免训练数据中的过度拟合？_Machine Learning

Machine learning 如何避免训练数据中的过度拟合？

machine-learning

Machine learning 如何避免训练数据中的过度拟合？,machine-learning,Machine Learning,我是生物信息学的一个项目，在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集，那么积极的例子将完全超过消极的例子。因此，在测试数据分类期间，我的负面数据也被错误分类为正面数据有没有简单的方法来平衡这些正负数据来解决这个问题？这是一个非常广泛的问题，但一般来说，您可以大致区分以下处理过度拟合的方法：（具体类型取决于近似器/分类器）（基于验证集）（选择最有可能具有最佳泛化的模型）在不平衡训练示例的情况下，已报告一个分类器与所有分类

我是生物信息学的一个项目，在那里我有大量的训练数据集。它由大约18000个正实例和1000个负实例组成。如果我使用这些数据作为训练集，那么积极的例子将完全超过消极的例子。因此，在测试数据分类期间，我的负面数据也被错误分类为正面数据

有没有简单的方法来平衡这些正负数据来解决这个问题？

这是一个非常广泛的问题，但一般来说，您可以大致区分以下处理过度拟合的方法：

（具体类型取决于近似器/分类器）
（基于验证集）
（选择最有可能具有最佳泛化的模型）

在不平衡训练示例的情况下，已报告一个分类器与所有分类器的集合产生了良好的结果（例如）。您还可以使用抽样技术（通过谷歌可以找到许多不同的命题）。

您可以尝试“类权重”方法，在这种方法中，较小的类获得更多的权重，从而为错误分类负面标签的类付出更大的代价

此外，如果您使用logistic分类器，您可以调整正/负预测的阈值，并观察其变化，然后使用交叉验证数据在两者之间进行权衡

然而，我要说的是，使用非常大的训练集使得模型不太可能过度拟合训练数据。

有趣的问题。我快速搜索了一下，找到了这个，希望能有所帮助：这个问题似乎离题了，因为它是关于统计的。也许应该在交叉路口询问一下。丹尼斯·贾鲁丁：这不是统计数字。正如标签上明确指出的那样，这是关于机器学习的。过度拟合也是该领域的一个主要问题。我同意这张表格不太适合。抱歉，伙计们，我已经把我的查询做得更具体了。嗨，谢谢，我已经把我的问题修改得更具体了。我使用基于SVM的weka进行分类。我不能分配calss权重方法，我想，我需要找到一种方法，使数据集在正负之间保持平衡。“提前停止”是正则化的子集吗？@jong hyunYeo是的，似乎是这样。直觉上，它属于一个单独的类别，因为无论您使用的模型的细节如何，您都可以以相同的方式使用它。