Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/image-processing/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 培训网络时如何防止图像数据冗余?_Python_Image Processing_Tensorflow_Neural Network_Deep Learning - Fatal编程技术网

Python 培训网络时如何防止图像数据冗余?

Python 培训网络时如何防止图像数据冗余?,python,image-processing,tensorflow,neural-network,deep-learning,Python,Image Processing,Tensorflow,Neural Network,Deep Learning,我有大量不同大小和随机大小的图像 我想确保 -我的训练集不是多余的 -我的测试集中的数据都不同(与测试集中的其他数据和训练集中的数据不同) 我所说的“不冗余”,基本上是指检查一个图像是否不是另一个图像的裁剪版本(或者同一个图像的最大延伸) 在网络上工作时,您通常如何处理此类情况? 不知怎么插上Tensorflow,有什么准备好的吗 谢谢你的帮助 K.似乎是在耍花招 谢谢@ThomasPinetz K.你必须做的事: 将第一个图像添加到集合(a)中,然后逐个解析其余图像,并仅将这些图像添加到(a)

我有大量不同大小和随机大小的图像

我想确保 -我的训练集不是多余的 -我的测试集中的数据都不同(与测试集中的其他数据和训练集中的数据不同)

我所说的“不冗余”,基本上是指检查一个图像是否不是另一个图像的裁剪版本(或者同一个图像的最大延伸)

在网络上工作时,您通常如何处理此类情况? 不知怎么插上Tensorflow,有什么准备好的吗

谢谢你的帮助

K.

似乎是在耍花招

谢谢@ThomasPinetz


K.

你必须做的事:

将第一个图像添加到集合(a)中,然后逐个解析其余图像,并仅将这些图像添加到(a)中,这些图像与(a)中的所有图像不同。继续迭代到最后一个图像。现在使用集合(A)图像进行训练和测试,例如80%的(A)图像用于训练,其余图像用于测试

如何确定:冗余?

简单地说,两个缩放的正方形图像是相同的或冗余的,因为它们都有四个直角角(或特征)。如果一个正方形图像被裁剪,那么它至少会有2个匹配的角点(或匹配的特征)

因此,为了确定冗余图像,您需要找到图像的局部特征,然后计算匹配的特征数量


这可以通过SIFT(scale invariant feature transform)和其他技术,如SURF local feature detector,来实现。使用文章获得基本理解。

很棒!!非常感谢@Thomaspinez!(我的谷歌搜索没有输出这个;))会检查哪个最适合我。虽然我不是ML专家,但我觉得这样做可能会适得其反。首先,如果复制品代表您的原始发行版,删除它们可能会恶化结果;第二,在从图像数据集学习时,通常会添加随机裁剪和转换的样本,以增加样本数量和鲁棒性。请注意,询问工具建议与SO无关。你可能想考虑编辑这个问题。@ PHG不代表原始分布。此外,在我的特定情况下,我的测试集必须与培训中使用的任何数据完全断开。