Machine learning 如何处理YUV422(YYYV)图像作为CNN的输入?

Machine learning 如何处理YUV422(YYYV)图像作为CNN的输入?,machine-learning,keras,computer-vision,conv-neural-network,Machine Learning,Keras,Computer Vision,Conv Neural Network,我想将以YUV422(YUYV)格式存储的图像输入CNN。YUV422表示两个像素由四个字节表示,基本上两个像素共享色度,但具有单独的亮度 我理解,对于卷积神经网络,空间性起着重要作用,即滤波器“看到”亮度像素及其相应的色度像素。那么如何解决这个问题呢?或者这根本没问题 出于性能原因,我希望避免额外的预处理步骤。在TensorFlow、PyTorch等常见框架中实现的卷积神经网络以平面方式存储通道。即,每个通道(R、G、B或Y、U、V)与图像中的所有像素(宽度x高度)存储在连续区域中。这与通道数

我想将以YUV422(YUYV)格式存储的图像输入CNN。YUV422表示两个像素由四个字节表示,基本上两个像素共享色度,但具有单独的亮度

我理解,对于卷积神经网络,空间性起着重要作用,即滤波器“看到”亮度像素及其相应的色度像素。那么如何解决这个问题呢?或者这根本没问题


出于性能原因,我希望避免额外的预处理步骤。

在TensorFlow、PyTorch等常见框架中实现的卷积神经网络以平面方式存储通道。即,每个通道(R、G、B或Y、U、V)与图像中的所有像素(宽度x高度)存储在连续区域中。这与通道数据在每个像素内交错的格式不同。因此,您需要对子采样UV通道进行上采样,以匹配Y通道的大小,然后以与RGB数据相同的方式将其馈送到网络

其他人发现它工作正常,但没有达到RGB的性能。看见 苏曼斯·雷迪;乌帕斯纳·辛格;普拉卡什·乌塔姆


YUV到RGB的转换不太可能成为瓶颈。RGB有一个明显的优势,即可以重用许多优秀的预训练模型(转移学习)。

我读过一篇关于以下问题的论文:YUVMultiNet:用于自动驾驶的实时YUV多任务CNN。你设法解决了这个问题吗?如果是,请分享