Deep learning 当图像大小不同时,如何格式化用于训练/预测的图像数据?

Deep learning 当图像大小不同时,如何格式化用于训练/预测的图像数据?,deep-learning,Deep Learning,我正在尝试训练我的图像分类模型。 我的问题是,它们有不同的尺寸。我应该如何格式化我的图像/或模型架构?你没有说你在谈论什么架构。既然你说要对图像进行分类,我假设它是一个部分卷积、部分完全连接的网络,如AlexNet、GoogLeNet等。一般来说,你问题的答案取决于你使用的网络类型 例如,如果您的网络只包含卷积单元,也就是说,不包含完全连接的层,那么它可以对输入图像的大小保持不变。这样一个网络可以处理输入的图像,然后返回另一个一路卷积的图像;您必须确保输出与预期相符,因为您必须以某种方式确定损失

我正在尝试训练我的图像分类模型。
我的问题是,它们有不同的尺寸。我应该如何格式化我的图像/或模型架构?

你没有说你在谈论什么架构。既然你说要对图像进行分类,我假设它是一个部分卷积、部分完全连接的网络,如AlexNet、GoogLeNet等。一般来说,你问题的答案取决于你使用的网络类型

例如,如果您的网络只包含卷积单元,也就是说,不包含完全连接的层,那么它可以对输入图像的大小保持不变。这样一个网络可以处理输入的图像,然后返回另一个一路卷积的图像;您必须确保输出与预期相符,因为您必须以某种方式确定损失

如果你使用的是完全连接的单元,你就有麻烦了:这里你有固定数量的学习权重,你的网络必须使用,所以不同的输入需要不同数量的权重——这是不可能的

如果这是你的问题,以下是你可以做的一些事情:

不要在意挤压图像。网络可能会学习如何理解内容;缩放和透视对内容有什么意义吗? 将图像居中裁剪到特定大小。如果担心丢失数据,请进行多次裁剪,并使用这些裁剪来增加输入数据,以便将原始图像分割为N个大小正确的不同图像。 用纯色将图像填充到正方形大小,然后调整大小。 做一个组合。 填充选项可能会给网络的预测带来额外的错误源,正如网络可能读到的那样:可能会偏向于包含这种填充边框的图像。 如果您需要一些想法,请查看TensorFlow文档的一节,其中有一些内容,如使用“裁剪”或“垫”调整图像大小,可以减少较大的工作量

至于只是不关心挤压,著名的Inception网络的一段预处理管道:

此调整大小操作可能会扭曲图像,因为外观 比例不受尊重。我们在循环中选择一个调整大小的方法 基于线号的时尚。 请注意,ResizeMethod包含4个枚举的调整大小方法。 我们只选择1种情况作为快速双线性模式。 num_resize_cases=1如果快速模式为4 扭曲的图像=使用随机选择器应用 扭曲的图像, lambda x,方法:tf.image.resize_imagesx,[高度,宽度],方法=方法, num\u cases=num\u resize\u cases 他们完全意识到了这一点,并且无论如何都要这样做


根据你想要或需要走多远,实际上有一篇论文叫做《深度卷积网络中的空间金字塔池,用于视觉识别》,它通过非常特殊的方式处理任意大小的输入。

尝试制作一个空间金字塔池层。然后将其放在最后一个卷积层之后,以便FC层始终获得恒定的维度向量作为输入。在训练期间,使用一个历元的特定图像大小对整个数据集中的图像进行训练。然后在下一个纪元中,切换到不同的图像大小并继续训练。

请显示您迄今为止尝试过的内容以及哪些内容似乎不适合您。然后,bam出现了《盗梦空间》第4版的代码。我不同意那种现成的评论。再多投入一点就好了——就像我们正在谈论的是什么样的网络——但否决票根本没有道理。这是一个真正的问题。问题是ImageNet如何格式化他们的图像数据,使其对培训有用?在处理对象检测和实例分割时,这个主题似乎要复杂得多,因为锚定框大小也是超参数,如果您有图像大小差异较大的数据集,则需要调整锚定框大小。对于区分圆和椭圆的网络,纵横比起着相当重要的作用。另一个普遍的观察结果是,批次不必具有相同的尺寸;第一批可以处理4:3的图像,第二批可以处理16:9的图像,等等,只要处理了密集层。@Tobitor,始终使网络的输入尽可能接近实际测试或推断时间数据。如果你所有的图像都比高宽得多,你也应该对你的网络进行建模,以便像这样处理你的图像。也就是说,如果您无法说出您的使用数据是什么样子的,那么您必须在培训期间做出一些牺牲。在这种情况下,将图像的大小从1000x200调整到256x256通常是可以的——想象一下,以60度的角度看车牌——它现在大致呈正方形。@Tobitor根本不要求图像为正方形,如果你不知道实际的i,这恰好是最不坏的权衡
推断期间的图像大小:^至于尺寸,越小越好,但图像需要足够大,以捕获所需的最佳细节-一般来说,请记住,如果您作为人类专家,无法确定图像中的内容,网络将无法,同样。你能详细说明一下空间金字塔池与常规池相比是什么吗?请阅读@Matthieu中的深层卷积网络中的空间金字塔池,以便进行视觉识别