Machine learning 在扩充数据集中生成测试集

Machine learning 在扩充数据集中生成测试集,machine-learning,scikit-learn,caffe,Machine Learning,Scikit Learn,Caffe,我手头有一个图像检索任务。我有一个数据集,每个类没有太多的图像,所以我从Keras中获得了一些灵感,最终扩展了数据集(类中每个图像有3个副本)。我使用了sklearn中的train\u test\u split方法来分割从扩展数据集生成的数据集。现在因为这是一个随机分割,所以在测试时,用于测试的图像有可能是针对其自身的增强对应图像进行测试的,例如,针对其原始图像测试的翻转和稍微倾斜的图像。在这种情况下,结果可能会出现偏差?除了仅获取用于测试的新数据外,是否还有其他方法可以克服此问题 是的,这被称

我手头有一个图像检索任务。我有一个数据集,每个类没有太多的图像,所以我从Keras中获得了一些灵感,最终扩展了数据集(类中每个图像有3个副本)。我使用了
sklearn
中的
train\u test\u split
方法来分割从扩展数据集生成的数据集。现在因为这是一个随机分割,所以在测试时,用于测试的图像有可能是针对其自身的增强对应图像进行测试的,例如,针对其原始图像测试的翻转和稍微倾斜的图像。在这种情况下,结果可能会出现偏差?除了仅获取用于测试的新数据外,是否还有其他方法可以克服此问题

是的,这被称为“泄漏”,除非数据扩充转换非常彻底,生成的图像可能类似于真实的测试集,否则最好在进行扩充之前拆分列/测试集,并且只在列集中进行扩充。

您应该先将
测试
数据放在一边,然后应用增强。