Python 这对清理测试数据很重要吗?
在培训数据中,我做了特征工程并清理了数据。这对测试数据同样重要吗? 我知道一些基本的修改,如标签编码、依赖/独立特征分割等。。测试数据中也需要。但是我们真的需要在做预测之前清理测试数据吗 这取决于: 规范化数据:如果您规范化了培训数据,那么是的,按照规范化培训数据的方式规范化测试数据。但是要小心,不要重新调整在训练数据上调整的任何参数 填充缺少的值:idem。将测试数据视为训练数据,但不要重新调整任何参数 删除异常值:可能不会。测试集的目的是对模型在看不见的数据上的性能进行估计。因此,删除异常值可能不是一个好主意 一般情况下:仅对测试数据执行在应用模型时可以/也将对看不见的数据执行的操作。这取决于: 规范化数据:如果您规范化了培训数据,那么是的,按照规范化培训数据的方式规范化测试数据。但是要小心,不要重新调整在训练数据上调整的任何参数 填充缺少的值:idem。将测试数据视为训练数据,但不要重新调整任何参数 删除异常值:可能不会。测试集的目的是对模型在看不见的数据上的性能进行估计。因此,删除异常值可能不是一个好主意Python 这对清理测试数据很重要吗?,python,machine-learning,data-science,data-cleaning,Python,Machine Learning,Data Science,Data Cleaning,在培训数据中,我做了特征工程并清理了数据。这对测试数据同样重要吗? 我知道一些基本的修改,如标签编码、依赖/独立特征分割等。。测试数据中也需要。但是我们真的需要在做预测之前清理测试数据吗 这取决于: 规范化数据:如果您规范化了培训数据,那么是的,按照规范化培训数据的方式规范化测试数据。但是要小心,不要重新调整在训练数据上调整的任何参数 填充缺少的值:idem。将测试数据视为训练数据,但不要重新调整任何参数 删除异常值:可能不会。测试集的目的是对模型在看不见的数据上的性能进行估计。因此,删除异常值
一般情况下:只对测试数据执行应用模型时可以/也将对看不见的数据执行的操作。我不能回答是或否,所以让我从所有列车/测试/开发集的数据分布开始。 根据安得烈NG教授的说法,测试和DEV集合应该来自相同的分布,但是训练集可以来自不同的分布,并且通常是一件好事。 有时候清理trainig集合非常有用,还可以应用一些基本操作来加快培训过程(比如不清理的规范化),但我们讨论的是培训数据,这些数据可以而且应该有成千上万的示例,所以有时候您无法手动检查数据并清理数据,因为它可能根本不值得; 我是什么意思?让我给你举个例子: 假设您正在构建一个cat分类器(cat或no cat),您的准确率为90%,这意味着您有10%的错误。 执行Error-analysis()后,您会发现:
标记为cat和viceversa)
- 在所有三种情况下,数据的形式和形状应该相同 设置(因此应用标签编码应该针对整个数据,而不仅仅是 用于培训数据,以及用于 预测,因为它会更改输出标签的形状)
- 功能的数量应始终相同李>
- 任何改变应用于数据的(形状、形式、特征数量等)的操作都应该应用于系统中要使用的每个样本李>
标记为cat和viceversa)