Deep learning CNN输入层有多少个神经元?

Deep learning CNN输入层有多少个神经元?,deep-learning,conv-neural-network,tensor,Deep Learning,Conv Neural Network,Tensor,在所有文献中,他们都说convnet的输入层是形状张量(宽度、高度、通道)。我知道一个完全连接的网络有一个输入层,其神经元的数量与图像中像素的数量相同(考虑灰度图像)。所以,我的问题是,卷积神经网络的输入层有多少个神经元?这似乎有误导性(或者我理解错了),它说输入层有3个神经元。如果是这样,这3个神经元代表什么?它们是张量吗?从我对CNN的理解来看,不应该只有一个大小(高度、宽度、通道)的神经元吗?如果我错了,请纠正我首先,让我们把图像弄清楚。这张图片并没有说在输入层中有3个神经元,它只是为了可

在所有文献中,他们都说convnet的输入层是形状张量(宽度、高度、通道)。我知道一个完全连接的网络有一个输入层,其神经元的数量与图像中像素的数量相同(考虑灰度图像)。所以,我的问题是,卷积神经网络的输入层有多少个神经元?这似乎有误导性(或者我理解错了),它说输入层有3个神经元。如果是这样,这3个神经元代表什么?它们是张量吗?从我对CNN的理解来看,不应该只有一个大小(高度、宽度、通道)的神经元吗?如果我错了,请纠正我首先,让我们把图像弄清楚。这张图片并没有说在输入层中有3个神经元,它只是为了可视化。该图像显示了网络的总体结构,用任意数量的神经元表示每一层

现在,要理解CNN,最好看看它们如何处理图像

图像是2D对象,在计算机中表示为2D矩阵,每个单元具有像素的强度值。图像可以有多个通道,例如,彩色图像的传统RGB通道。因此,这些不同的通道可以被认为是图像中相同位置的不同维度(在RGB的情况下,这些是颜色维度)的值

另一方面,神经层是一维的。他们从一端获取输入,从另一端给出输出。那么我们如何处理一维神经层中的二维图像呢?这里卷积神经网络(CNN)开始发挥作用

通过将一个通道中的连续行连接起来,然后连接连续通道,可以将2D图像展平为单个1D向量。大小(宽度、高度、通道)的图像将成为大小(宽度x高度x通道)的1D矢量,然后输入CNN的输入层。为了回答你的问题,CNN的输入层的神经元数量和它所有通道图像中的像素数量一样多

我认为你对神经元的基本概念感到困惑:

从我对CNN的理解来看,不应该只有一个大小(高度、宽度、通道)的神经元吗

把神经元想象成一个单一的计算单元,它一次不能处理多个数字。因此,单个神经元不能同时处理图像的所有像素。由许多神经元组成的神经层用于处理整个图像

希望这能消除你的一些疑虑。请随时在评论中提出任何疑问。:)

编辑:

假设我们有(27 X 27)个图像。假设有3个过滤器,每个大小(3 X 3)。因此总共有3 X 3 X 3=27个参数(W)。所以我的问题是这些神经元是如何连接的?每个过滤器必须迭代27个像素(神经元)。一次,9个输入神经元连接到一个滤波神经元。当过滤器在所有像素上迭代时,这些连接会发生变化

我的理解正确吗?我只是想把CNN想象成有联系的神经元

可视化CNN过滤器的一个简单方法是将它们想象为在图像中移动的小窗口。在您的情况下,您有3个大小为3x3的过滤器

  • 我们通常使用多个过滤器,以便从同一个局部感受野(正如michael_question_Answer恰当地指出的)或更简单的术语(我们的窗口)学习不同种类的特征。每个过滤器的权重都是随机初始化的,因此每个过滤器学习的特征略有不同

  • 现在想象每个过滤器在图像上移动,一次只覆盖一个3x3的网格。我们定义了一个步长值,该值指定窗口向右移动的量和向下移动的量。在每个位置,窗口处的过滤器权重和图像像素将在创建的新体积中给出一个新值。为了回答你的问题,在一个实例中,总共有3x3=9个像素与对应于一个滤波器的9个神经元相连。其他2个过滤器也是如此

  • 您通过可视化理解CNN的方法是正确的。但是你仍然需要复习一下你对术语的基本理解。以下是一些有用的资源:


    希望这有帮助。保持好奇心:)

    似乎您误解了一些术语,并且对卷积层有3维感到困惑

    编辑:我应该明确指出,CNN的输入层是一个卷积层

    任何一层中神经元的数量由开发者决定。对于完全连接的层,通常情况下,每个输入都有一个神经元。正如你在问题中提到的,对于一幅图像,在一个完全连接的输入层中,神经元的数量可能等于像素的数量(除非开发者想在这一点上减少采样)。这也意味着您可以创建一个完全连接的输入层,该层接收每个通道中的所有像素(宽度、高度、通道)。虽然每个输入只被输入神经元接收一次,但与卷积层不同

    卷积层的工作方式略有不同。卷积层中的每个神经元都有一个我们称之为局部感受野的区域。这仅仅意味着神经元不是连接到整个输入(这将被称为完全连接),而是连接到输入的某个部分(必须是空间局部的)。这些输入神经元提供了输入数据的小部分的抽象,当这些数据在整个输入中结合在一起时,我们称之为特征映射

    卷积层的一个重要特征是它们在空间上是不变的。这意味着它们在整个图像中寻找相同的特征。毕竟,你不会希望一个经过物体识别训练的神经网络只识别机器人中的自行车