Machine learning 培训数据与测试数据

Machine learning 培训数据与测试数据,machine-learning,classification,training-data,test-data,Machine Learning,Classification,Training Data,Test Data,这听起来像是一个基本问题,但我对训练集和测试有一个很大的困惑 当我们使用监督学习技术(如分类)来预测某件事时,一种常见的做法是将数据集分成训练集和测试集两部分。训练集将有一个预测变量,我们在数据集上训练模型并“预测”事物 让我们举个例子。我们将预测银行的贷款违约者,我们有德国的信用数据集,我们预测违约者和非违约者,但已经有一个定义栏,说明客户是违约者还是非违约者 我理解对看不见的数据进行预测的逻辑,比如泰坦尼克号的生存数据,但如果已经提到了某类数据,比如德国信贷数据,那么预测的意义何在。正如你所

这听起来像是一个基本问题,但我对训练集和测试有一个很大的困惑

当我们使用监督学习技术(如分类)来预测某件事时,一种常见的做法是将数据集分成训练集和测试集两部分。训练集将有一个预测变量,我们在数据集上训练模型并“预测”事物

让我们举个例子。我们将预测银行的贷款违约者,我们有德国的信用数据集,我们预测违约者和非违约者,但已经有一个定义栏,说明客户是违约者还是非违约者


我理解对看不见的数据进行预测的逻辑,比如泰坦尼克号的生存数据,但如果已经提到了某类数据,比如德国信贷数据,那么预测的意义何在。

正如你所说,我们的想法是建立一个模型,你可以预测看不见的数据。测试数据仅用于测量通过培训数据创建的模型的性能。您需要确保您提出的模型不会“过度拟合”您的训练数据。这就是为什么测试数据很重要。最终,您将使用该模型预测新贷款人是否将违约,从而做出是否批准贷款申请的业务决策

它们包含默认值的原因是,您可以验证模型是否按预期工作,并预测正确的结果。没有这一点,任何人都无法确信他们的模型是按预期工作的。

训练模型的最终目的是将其应用于你所谓的看不见的数据

即使在你的德国信用贷款的例子中,在一天结束时,你会有一个经过训练的模型,你可以用它来预测新的、看不见的信用申请是否会违约。你应该能够在将来的任何新的信用申请中使用它,只要你能够用你用来训练你的模型的相同格式来表示新的信用数据

另一方面,测试集只是一种形式主义,用于评估模型的好坏。您无法确定您的模型在未来的信贷应用程序中的准确性,但您可以做的是保存一小部分培训数据,并仅使用它来检查模型构建后的性能。这就是所谓的测试集(或者更准确地说,是验证集)