Machine learning “理解”;“专家深度列表”;

Machine learning “理解”;“专家深度列表”;,machine-learning,neural-network,tensorflow,deep-learning,Machine Learning,Neural Network,Tensorflow,Deep Learning,我在努力理解。我对神经网络和深度学习在高层次上的工作原理有着相当清晰的概念,但我很难理解其中的细节 在本教程中,首先编写并运行一个简单的单层模型。这包括定义模型x*W+b、计算熵、通过梯度下降最小化熵以及评估结果 我发现第一部分很容易运行和理解 在第二部分中,我们构建了一个简单的多级网络,并应用了一些卷积和池。然而,事情开始变得棘手起来。他们写道: 我们现在可以实现我们的第一层。它将包括卷积,然后是最大池。卷积运算将为每个5x5面片计算32个特征 5x5面片应等于25像素。对吗?为什么要从25个

我在努力理解。我对神经网络和深度学习在高层次上的工作原理有着相当清晰的概念,但我很难理解其中的细节

在本教程中,首先编写并运行一个简单的单层模型。这包括定义模型x*W+b、计算熵、通过梯度下降最小化熵以及评估结果

我发现第一部分很容易运行和理解

在第二部分中,我们构建了一个简单的多级网络,并应用了一些卷积和池。然而,事情开始变得棘手起来。他们写道:

我们现在可以实现我们的第一层。它将包括卷积,然后是最大池。卷积运算将为每个5x5面片计算32个特征

5x5面片应等于25像素。对吗?为什么要从25个像素中提取32个特征?为什么您想要比数据点更多的功能?这有什么意义?这感觉就像他们正在将一个问题从25维“升级”到32维。感觉32个维度中有7个应该是冗余的

其次。卷积使用的函数只是选取接近平均值的随机值。为什么这是一个很好的手写数字建模模型


第三。网络的第二层似乎又在做同样的事情。更多的层是否更好,我可以用一个层获得相同的结果吗?

因此,一般来说,在试图理解真正发生的事情之前,你必须阅读大量关于CNN/NN的内容。这些例子并不是NN的入门课程,而是假设你们知道CNN是什么

5x5面片应等于25像素。对吗?为什么要从25个像素中提取32个特征?为什么您想要比数据点更多的功能?这有什么意义?这感觉就像他们正在将一个问题从25维“升级”到32维。感觉32个维度中有7个应该是冗余的

这是完全不同的“抽象层次”,您将不相关的对象相互比较,这显然令人困惑。他们正在创建32个过滤器,每个过滤器将通过一个5x5卷积内核在图像中移动,线性映射整个图像。例如,一个这样的过滤器可以是边缘检测器:

0 0 0 0 0
0 0 0 0 0
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
另一个可以检测对角线

1 0 0 0 0
1 1 0 0 0
1 1 1 0 0
1 1 1 1 0
1 1 1 1 1
等等,为什么是32?只是一个神奇的数字,经验之谈。就CNN而言,这实际上是一个非常小的数字(请注意,仅检测灰度图像中的基本边缘,您已经需要8个不同的过滤器!)

其次。卷积使用函数截断_normal,它只选取接近平均值的随机值。为什么这是一个很好的手写数字建模模型

这是权重的初始值设定项。这不是“手工书写数字建模模型”,这只是优化这部分参数空间的一个起点。为什么是正态分布?我们有一些数学直觉如何初始化神经网络,特别是假设ReLU激活。以随机方式初始化是很重要的,这样可以确保许多神经元最初处于活动状态,因此不会得到0个导数(因此缺乏使用典型优化器学习的能力)

第三。网络的第二层似乎又在做同样的事情。更多的图层是否更好,我可以用一个图层获得相同的结果吗


原则上,您可以使用单个隐藏层前馈网络对所有内容进行建模,即使没有卷积。然而,它可能需要大量的隐藏单元,以及完美的优化策略,而我们没有这些优化策略(也许它们根本不存在!)。网络的深度使您能够用较少的参数表达更复杂(在相同情况下更有用)的功能,而且我们或多或少知道如何对其进行优化。然而,你应该避免一个经常被认为“越深越好”的陷阱。一般来说,情况并非如此。如果数据的重要特征可以有效地表示为抽象的层次结构,则这是正确的。对于图像(越来越复杂的图案、第一条边、一些线条和曲线、然后是面片、然后是更复杂的concepct等)以及文本、声音等都是如此。但在尝试将DL应用于新任务之前,您应该问问自己,这是否(或至少可能)适用于您的情况。使用过于复杂的模型通常比使用过于简单的模型更糟糕。

因此,一般来说,在试图了解实际情况之前,您必须阅读大量有关CNN/NN的信息。这些例子并不是NN的入门课程,而是假设你们知道CNN是什么

5x5面片应等于25像素。对吗?为什么要从25个像素中提取32个特征?为什么您想要比数据点更多的功能?这有什么意义?这感觉就像他们正在将一个问题从25维“升级”到32维。感觉32个维度中有7个应该是冗余的

这是完全不同的“抽象层次”,您将不相关的对象相互比较,这显然令人困惑。他们正在创建32个过滤器,每个过滤器将通过一个5x5卷积内核在图像中移动,线性映射整个图像。例如,一个这样的过滤器可以是边缘检测器:

0 0 0 0 0
0 0 0 0 0
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
另一个可以检测对角线

1 0 0 0 0
1 1 0 0 0
1 1 1 0 0
1 1 1 1 0
1 1 1 1 1
等等,为什么是32?只是一个神奇的数字,经验之谈。就CNN而言,这实际上是一个非常小的数字(请注意,仅检测灰度图像中的基本边缘,您已经需要8个不同的过滤器!)

其次。卷积使用函数截断_normal,它只选取接近平均值的随机值。为什么这是一个很好的手写数字建模模型

这是权重的初始值设定项