Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jsp/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cocoa/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 删除缺失值百分比较高的列后,测试集和训练集维度不同_Machine Learning_Imputation - Fatal编程技术网

Machine learning 删除缺失值百分比较高的列后,测试集和训练集维度不同

Machine learning 删除缺失值百分比较高的列后,测试集和训练集维度不同,machine-learning,imputation,Machine Learning,Imputation,我目前有一个欺诈检测项目的问题。数据集已经在列和测试集中进行了拆分,因此最初我将测试集拆分为0.7,测试集包含393列,而列集包含394列,正如预期的那样,但当我删除缺失值百分比较高(>73%)的列时,我有15列保留在测试集中,但不在列中。我应该简单地删除这些列吗?或者把它们复制到训练集中,继续插补?后者是否有损于模型的推广?对不起,我不知道,我是这个领域的新手,谢谢 在进行机器学习时,请始终记住,在开发算法时,测试集是未知的。它被称为测试集,因为您正在测试 我应该简单地删除这些列吗 您的决定只

我目前有一个欺诈检测项目的问题。数据集已经在列和测试集中进行了拆分,因此最初我将测试集拆分为0.7,测试集包含393列,而列集包含394列,正如预期的那样,但当我删除缺失值百分比较高(>73%)的列时,我有15列保留在测试集中,但不在列中。我应该简单地删除这些列吗?或者把它们复制到训练集中,继续插补?后者是否有损于模型的推广?对不起,我不知道,我是这个领域的新手,谢谢

在进行机器学习时,请始终记住,在开发算法时,测试集是未知的。它被称为测试集,因为您正在测试

我应该简单地删除这些列吗

您的决定只应取决于培训集。如果删除训练集中的列,则可以在测试集中删除该列

或者将它们复制到培训集中,然后继续 插补

超级糟糕的主意!您将使用来自测试集的信息。Imagen若您已经添加了一个带有预测值的列,这也是错误的,若您将测试集中的信息用于训练集,这就是oyu所做的

后者是否有损于模型的推广


切勿将测试集中的信息用于训练集

在测试集中维护训练数据中不存在的列是毫无意义的