Machine learning 在扩充数据集中生成测试集_Machine Learning_Scikit Learn_Caffe

Machine learning 在扩充数据集中生成测试集

machine-learning scikit-learn

Machine learning 在扩充数据集中生成测试集,machine-learning,scikit-learn,caffe,Machine Learning,Scikit Learn,Caffe,我手头有一个图像检索任务。我有一个数据集，每个类没有太多的图像，所以我从Keras中获得了一些灵感，最终扩展了数据集（类中每个图像有3个副本）。我使用了sklearn中的train\u test\u split方法来分割从扩展数据集生成的数据集。现在因为这是一个随机分割，所以在测试时，用于测试的图像有可能是针对其自身的增强对应图像进行测试的，例如，针对其原始图像测试的翻转和稍微倾斜的图像。在这种情况下，结果可能会出现偏差？除了仅获取用于测试的新数据外，是否还有其他方法可以克服此问题是的，这被称

我手头有一个图像检索任务。我有一个数据集，每个类没有太多的图像，所以我从Keras中获得了一些灵感，最终扩展了数据集（类中每个图像有3个副本）。我使用了

sklearn

中的

train\u test\u split

方法来分割从扩展数据集生成的数据集。现在因为这是一个随机分割，所以在测试时，用于测试的图像有可能是针对其自身的增强对应图像进行测试的，例如，针对其原始图像测试的翻转和稍微倾斜的图像。在这种情况下，结果可能会出现偏差？除了仅获取用于测试的新数据外，是否还有其他方法可以克服此问题

是的，这被称为“泄漏”，除非数据扩充转换非常彻底，生成的图像可能类似于真实的测试集，否则最好在进行扩充之前拆分列/测试集，并且只在列集中进行扩充。

您应该先将

测试

数据放在一边，然后应用增强。