Machine learning 过拟合模型在测试集中表现更好

Machine learning 过拟合模型在测试集中表现更好,machine-learning,statistics,deep-learning,Machine Learning,Statistics,Deep Learning,我问过这个问题,但那里的人似乎并不活跃 同一任务有两种模型: model_1:98%的训练集准确率,54%的测试集准确率。 model_2:48%的训练集准确率,47%的测试集准确率。 从上面的统计数据中,我们可以说model_1超过了培训集。 Q1:我们能说型号2不合身吗? Q2:为什么模型1在测试集上的性能比模型2好是一个糟糕的选择?首先,一些初步观点: 了解任务是否为二进制任务将非常有用。在这种情况下,您将获得非常接近随机选择的性能。所以基本上你的模型不是从训练集中学习 另一个有用的信息是

我问过这个问题,但那里的人似乎并不活跃

同一任务有两种模型:

model_1:98%的训练集准确率,54%的测试集准确率。
model_2:48%的训练集准确率,47%的测试集准确率。

从上面的统计数据中,我们可以说model_1超过了培训集。
Q1:我们能说型号2不合身吗?

Q2:为什么模型1在测试集上的性能比模型2好是一个糟糕的选择?

首先,一些初步观点:

了解任务是否为二进制任务将非常有用。在这种情况下,您将获得非常接近随机选择的性能。所以基本上你的模型不是从训练集中学习

另一个有用的信息是了解两个模型的训练集是否相同(相同的分割测试/训练)。因为两个模型之间7%的差异可能只是由于样本分裂而产生的随机噪声

最后,为了说明模型2比模型1更好,您需要进行更深入的分析。这两个模型之间的差异很可能没有统计学意义


模型过度拟合的事实告诉您,它在测试集上没有很好的泛化。通过更好地选择您的设计,您可以提高性能,并使系统对看不见的样本更加健壮。不使用过拟合系统的原因是,该特定测试/验证集的准确度达到54%,并且由于模型缺乏通用性和鲁棒性,新的未知值可能会有很大差异

Q1是,型号2底裤

Q2因为,model_2不是泛化,而是记住答案。因此,列车和测试集之间的差异越大,测试集的性能就会越差。

引用:

我们必须记住,虽然更简单的函数更有可能 一般来说(为了在训练和测试错误之间有一个小的差距),我们 仍然必须选择一个足够复杂的假设来实现低成本 训练错误


AI堆栈交换它不是此类问题的合适位置(也不是);你应该尝试和/或(我建议你选择前者)。。。