Machine learning 培训数据与测试数据_Machine Learning_Classification_Training Data_Test Data

Machine learning 培训数据与测试数据

machine-learning

Machine learning 培训数据与测试数据,machine-learning,classification,training-data,test-data,Machine Learning,Classification,Training Data,Test Data,这听起来像是一个基本问题，但我对训练集和测试有一个很大的困惑当我们使用监督学习技术（如分类）来预测某件事时，一种常见的做法是将数据集分成训练集和测试集两部分。训练集将有一个预测变量，我们在数据集上训练模型并“预测”事物让我们举个例子。我们将预测银行的贷款违约者，我们有德国的信用数据集，我们预测违约者和非违约者，但已经有一个定义栏，说明客户是违约者还是非违约者我理解对看不见的数据进行预测的逻辑，比如泰坦尼克号的生存数据，但如果已经提到了某类数据，比如德国信贷数据，那么预测的意义何在。正如你所

这听起来像是一个基本问题，但我对训练集和测试有一个很大的困惑

当我们使用监督学习技术（如分类）来预测某件事时，一种常见的做法是将数据集分成训练集和测试集两部分。训练集将有一个预测变量，我们在数据集上训练模型并“预测”事物

让我们举个例子。我们将预测银行的贷款违约者，我们有德国的信用数据集，我们预测违约者和非违约者，但已经有一个定义栏，说明客户是违约者还是非违约者

我理解对看不见的数据进行预测的逻辑，比如泰坦尼克号的生存数据，但如果已经提到了某类数据，比如德国信贷数据，那么预测的意义何在。

正如你所说，我们的想法是建立一个模型，你可以预测看不见的数据。测试数据仅用于测量通过培训数据创建的模型的性能。您需要确保您提出的模型不会“过度拟合”您的训练数据。这就是为什么测试数据很重要。最终，您将使用该模型预测新贷款人是否将违约，从而做出是否批准贷款申请的业务决策

它们包含默认值的原因是，您可以验证模型是否按预期工作，并预测正确的结果。没有这一点，任何人都无法确信他们的模型是按预期工作的。

训练模型的最终目的是将其应用于你所谓的看不见的数据

即使在你的德国信用贷款的例子中，在一天结束时，你会有一个经过训练的模型，你可以用它来预测新的、看不见的信用申请是否会违约。你应该能够在将来的任何新的信用申请中使用它，只要你能够用你用来训练你的模型的相同格式来表示新的信用数据

另一方面，测试集只是一种形式主义，用于评估模型的好坏。您无法确定您的模型在未来的信贷应用程序中的准确性，但您可以做的是保存一小部分培训数据，并仅使用它来检查模型构建后的性能。这就是所谓的测试集（或者更准确地说，是验证集）