使用预训练模型(Keras、Tensorflow)的掩模R-CNN、更快的R-CNN的最佳图像尺寸

使用预训练模型(Keras、Tensorflow)的掩模R-CNN、更快的R-CNN的最佳图像尺寸,tensorflow,keras,resnet,Tensorflow,Keras,Resnet,许多现有的Tensorflow和Keras CNN代码示例对训练图像使用相同的大小,通常是299*299、244*244、256*256等。我认为这部分取决于与预先训练的模型的兼容性,以及体系结构本身 我仍在评估体系结构,但最终可能会使用Mask R-CNN(或者更快的R-CNN),使用Resnet、Inception或exception以及Tensorflow或Keras。要分析的目标图像的范围为1024*1024,但可以划分为更小的分区 考虑到可用的预训练模型,是否有训练图像大小可以提供任何

许多现有的Tensorflow和Keras CNN代码示例对训练图像使用相同的大小,通常是299*299、244*244、256*256等。我认为这部分取决于与预先训练的模型的兼容性,以及体系结构本身

我仍在评估体系结构,但最终可能会使用Mask R-CNN(或者更快的R-CNN),使用Resnet、Inception或exception以及Tensorflow或Keras。要分析的目标图像的范围为1024*1024,但可以划分为更小的分区


考虑到可用的预训练模型,是否有训练图像大小可以提供任何优势?我希望避免事后调整大小,因为在某些情况下这会降低图像清晰度。

好的,我找到了部分答案:

Girshick的更快的R-CNN显然对输入图像进行内部缩放,使其较短的尺寸为600像素,但较大的边缘被钳制为1000像素。这听起来像是由于可用GPU的内存限制

考虑到图像缩放会对CPU造成影响,并会导致边缘出现一些锯齿,因此图像预处理似乎有优势


我还没有找到Mask R-CNN的等效信息。

根据Matterport的实现,可以在这里找到图像的输入大小为1024x1024。此外,他们在论文中提到,他们使用1024像素作为运行cityscape的输入(我相信可以查看附录b)。

一个完全没有理由的直接投票。圣诞节还没到呢。人到底怎么了。