Deep learning 当图像大小不同时，如何格式化用于训练/预测的图像数据？_Deep Learning

Deep learning 当图像大小不同时，如何格式化用于训练/预测的图像数据？

deep-learning

Deep learning 当图像大小不同时，如何格式化用于训练/预测的图像数据？,deep-learning,Deep Learning,我正在尝试训练我的图像分类模型。我的问题是，它们有不同的尺寸。我应该如何格式化我的图像/或模型架构？你没有说你在谈论什么架构。既然你说要对图像进行分类，我假设它是一个部分卷积、部分完全连接的网络，如AlexNet、GoogLeNet等。一般来说，你问题的答案取决于你使用的网络类型例如，如果您的网络只包含卷积单元，也就是说，不包含完全连接的层，那么它可以对输入图像的大小保持不变。这样一个网络可以处理输入的图像，然后返回另一个一路卷积的图像；您必须确保输出与预期相符，因为您必须以某种方式确定损失

我正在尝试训练我的图像分类模型。

我的问题是，它们有不同的尺寸。我应该如何格式化我的图像/或模型架构？

你没有说你在谈论什么架构。既然你说要对图像进行分类，我假设它是一个部分卷积、部分完全连接的网络，如AlexNet、GoogLeNet等。一般来说，你问题的答案取决于你使用的网络类型

例如，如果您的网络只包含卷积单元，也就是说，不包含完全连接的层，那么它可以对输入图像的大小保持不变。这样一个网络可以处理输入的图像，然后返回另一个一路卷积的图像；您必须确保输出与预期相符，因为您必须以某种方式确定损失

如果你使用的是完全连接的单元，你就有麻烦了：这里你有固定数量的学习权重，你的网络必须使用，所以不同的输入需要不同数量的权重——这是不可能的

如果这是你的问题，以下是你可以做的一些事情：

不要在意挤压图像。网络可能会学习如何理解内容；缩放和透视对内容有什么意义吗？将图像居中裁剪到特定大小。如果担心丢失数据，请进行多次裁剪，并使用这些裁剪来增加输入数据，以便将原始图像分割为N个大小正确的不同图像。用纯色将图像填充到正方形大小，然后调整大小。做一个组合。填充选项可能会给网络的预测带来额外的错误源，正如网络可能读到的那样：可能会偏向于包含这种填充边框的图像。如果您需要一些想法，请查看TensorFlow文档的一节，其中有一些内容，如使用“裁剪”或“垫”调整图像大小，可以减少较大的工作量

至于只是不关心挤压，著名的Inception网络的一段预处理管道：

此调整大小操作可能会扭曲图像，因为外观比例不受尊重。我们在循环中选择一个调整大小的方法基于线号的时尚。请注意，ResizeMethod包含4个枚举的调整大小方法。我们只选择1种情况作为快速双线性模式。 num_resize_cases=1如果快速模式为4 扭曲的图像=使用随机选择器应用扭曲的图像， lambda x，方法：tf.image.resize_imagesx，[高度，宽度]，方法=方法， num\u cases=num\u resize\u cases 他们完全意识到了这一点，并且无论如何都要这样做

根据你想要或需要走多远，实际上有一篇论文叫做《深度卷积网络中的空间金字塔池，用于视觉识别》，它通过非常特殊的方式处理任意大小的输入。

尝试制作一个空间金字塔池层。然后将其放在最后一个卷积层之后，以便FC层始终获得恒定的维度向量作为输入。在训练期间，使用一个历元的特定图像大小对整个数据集中的图像进行训练。然后在下一个纪元中，切换到不同的图像大小并继续训练。

请显示您迄今为止尝试过的内容以及哪些内容似乎不适合您。然后，bam出现了《盗梦空间》第4版的代码。我不同意那种现成的评论。再多投入一点就好了——就像我们正在谈论的是什么样的网络——但否决票根本没有道理。这是一个真正的问题。问题是ImageNet如何格式化他们的图像数据，使其对培训有用？在处理对象检测和实例分割时，这个主题似乎要复杂得多，因为锚定框大小也是超参数，如果您有图像大小差异较大的数据集，则需要调整锚定框大小。对于区分圆和椭圆的网络，纵横比起着相当重要的作用。另一个普遍的观察结果是，批次不必具有相同的尺寸；第一批可以处理4:3的图像，第二批可以处理16:9的图像，等等，只要处理了密集层。@Tobitor，始终使网络的输入尽可能接近实际测试或推断时间数据。如果你所有的图像都比高宽得多，你也应该对你的网络进行建模，以便像这样处理你的图像。也就是说，如果您无法说出您的使用数据是什么样子的，那么您必须在培训期间做出一些牺牲。在这种情况下，将图像的大小从1000x200调整到256x256通常是可以的——想象一下，以60度的角度看车牌——它现在大致呈正方形。@Tobitor根本不要求图像为正方形，如果你不知道实际的i，这恰好是最不坏的权衡

推断期间的图像大小：^至于尺寸，越小越好，但图像需要足够大，以捕获所需的最佳细节-一般来说，请记住，如果您作为人类专家，无法确定图像中的内容，网络将无法，同样。你能详细说明一下空间金字塔池与常规池相比是什么吗？请阅读@Matthieu中的深层卷积网络中的空间金字塔池，以便进行视觉识别