Deep learning CNN如何处理RGB图像

Deep learning CNN如何处理RGB图像,deep-learning,neural-network,computer-vision,conv-neural-network,cnn,Deep Learning,Neural Network,Computer Vision,Conv Neural Network,Cnn,在卷积神经网络中,卷积过程非常丰富 众所周知,如果您拍摄一张5x5灰度图像(1通道),并使用3x3过滤器(包含特定权重)对其进行卷积,您将得到一张3x3特征图,如下图所示:卷积 但是,一旦你将卷积的概念扩展到RGB图像中,现在你有3个通道(R,G,B)进行卷积,会发生什么呢?你只需在滤镜中添加一个通道,与原始图像中通道的#成比例,对吗?假设我们这样做了,使用RGB卷积的过程如下:使用3x3x3过滤器卷积的6x6x3 RGB图像。这显然导致了4x4x1,而不是人们所期望的4x4x3 我的问题是为什

在卷积神经网络中,卷积过程非常丰富

众所周知,如果您拍摄一张5x5灰度图像(1通道),并使用3x3过滤器(包含特定权重)对其进行卷积,您将得到一张3x3特征图,如下图所示:卷积

但是,一旦你将卷积的概念扩展到RGB图像中,现在你有3个通道(R,G,B)进行卷积,会发生什么呢?你只需在滤镜中添加一个通道,与原始图像中通道的#成比例,对吗?假设我们这样做了,使用RGB卷积的过程如下:使用3x3x3过滤器卷积的6x6x3 RGB图像。这显然导致了4x4x1,而不是人们所期望的4x4x3

我的问题是为什么会这样

如果您在internet上浏览要素地图的可视化效果,它们会返回一些彩色的低级和高级要素。这些是内核本身的可视化还是特性图?无论哪种方式,它们都有颜色,这意味着它们必须有一个以上的通道否?

看看pytorch,您会注意到内核的大小不仅受其空间宽度和高度(在您的问题中为3x3)的影响,还受输入通道和输出通道的数量的影响。
因此,如果您有一个输入RGB图像(=3个输入通道)和一个大小为3x3x3的过滤器(=单个输出通道,用于3个输入通道,空间宽度/高度=3),那么您的输出将确实是4x4x1。
您可以可视化此过滤器,因为您可以将其解释为一个小3x3 RGB图像。
可视化网络中更深的功能/过滤器一点也不简单,您看到的图像通常是优化过程的结果,这些优化过程旨在“发现”过滤器。概述了一些复杂的功能可视化方法。

看看Pyrotch的,您会注意到内核的大小不仅受其空间宽度和高度(在您的问题中为3x3)的影响,还受输入通道和输出通道数量的影响。
因此,如果您有一个输入RGB图像(=3个输入通道)和一个大小为3x3x3的过滤器(=单个输出通道,用于3个输入通道,空间宽度/高度=3),那么您的输出将确实是4x4x1。
您可以可视化此过滤器,因为您可以将其解释为一个小3x3 RGB图像。

可视化网络中更深的功能/过滤器一点也不简单,您看到的图像通常是优化过程的结果,这些优化过程旨在“发现”过滤器。概述了一些复杂的特征可视化方法。

好吧,彩色图像是:定义为3个通道,而且你可以看到一个彩色图像,它是由3个值矩阵组成的堆栈,因此2个红色和蓝色可以设置为零,你还应该检查网络的稀疏性…

好吧,彩色图像是:定义为3个通道,也可以将彩色图像视为3个值矩阵的堆栈,因此2个红色和蓝色可以设置为零,,您还应该检查网络的稀疏性…

我听说这个卷积过程的输出引入了一个特征映射,它实际上不包含基于颜色的值,而只是基于内核用于卷积的权重。所以我想说的是,输出可以简单地用热图来可视化。不,我听说这个卷积过程的输出引入了一个特征图,它实际上不包含基于颜色的值,而只是基于内核用来卷积的权重。所以我想说的是,输出可以简单地用热图来可视化?