Python 培训网络时如何防止图像数据冗余？_Python_Image Processing_Tensorflow_Neural Network_Deep Learning

Python 培训网络时如何防止图像数据冗余？

python image-processing tensorflow neural-network deep-learning

Python 培训网络时如何防止图像数据冗余？,python,image-processing,tensorflow,neural-network,deep-learning,Python,Image Processing,Tensorflow,Neural Network,Deep Learning,我有大量不同大小和随机大小的图像我想确保 -我的训练集不是多余的 -我的测试集中的数据都不同（与测试集中的其他数据和训练集中的数据不同）我所说的“不冗余”，基本上是指检查一个图像是否不是另一个图像的裁剪版本（或者同一个图像的最大延伸）在网络上工作时，您通常如何处理此类情况？不知怎么插上Tensorflow，有什么准备好的吗谢谢你的帮助 K.似乎是在耍花招谢谢@ThomasPinetz K.你必须做的事：将第一个图像添加到集合（a）中，然后逐个解析其余图像，并仅将这些图像添加到（a）

我有大量不同大小和随机大小的图像

我想确保 -我的训练集不是多余的 -我的测试集中的数据都不同（与测试集中的其他数据和训练集中的数据不同）

我所说的“不冗余”，基本上是指检查一个图像是否不是另一个图像的裁剪版本（或者同一个图像的最大延伸）

在网络上工作时，您通常如何处理此类情况？不知怎么插上Tensorflow，有什么准备好的吗

谢谢你的帮助

似乎是在耍花招

谢谢@ThomasPinetz

你必须做的事：

将第一个图像添加到集合（a）中，然后逐个解析其余图像，并仅将这些图像添加到（a）中，这些图像与（a）中的所有图像不同。继续迭代到最后一个图像。现在使用集合（A）图像进行训练和测试，例如80%的（A）图像用于训练，其余图像用于测试

如何确定：冗余？

简单地说，两个缩放的正方形图像是相同的或冗余的，因为它们都有四个直角角（或特征）。如果一个正方形图像被裁剪，那么它至少会有2个匹配的角点（或匹配的特征）

因此，为了确定冗余图像，您需要找到图像的局部特征，然后计算匹配的特征数量

这可以通过SIFT（scale invariant feature transform）和其他技术，如SURF local feature detector，来实现。使用文章获得基本理解。

很棒！！非常感谢@Thomaspinez！（我的谷歌搜索没有输出这个；））会检查哪个最适合我。虽然我不是ML专家，但我觉得这样做可能会适得其反。首先，如果复制品代表您的原始发行版，删除它们可能会恶化结果；第二，在从图像数据集学习时，通常会添加随机裁剪和转换的样本，以增加样本数量和鲁棒性。请注意，询问工具建议与SO无关。你可能想考虑编辑这个问题。@ PHG不代表原始分布。此外，在我的特定情况下，我的测试集必须与培训中使用的任何数据完全断开。