Language agnostic 识别图像时,神经网络决策过程是否可视化?

Language agnostic 识别图像时,神经网络决策过程是否可视化?,language-agnostic,machine-learning,neural-network,ocr,image-recognition,Language Agnostic,Machine Learning,Neural Network,Ocr,Image Recognition,我被录取了,我刚刚开始学习神经网络 真正让我困惑的一件事是,一旦你找到线性组合的良好权重,如何识别如此“人性化”的东西,比如手写数字,变得很容易 当你明白一些看似抽象的东西(比如汽车)可以通过为线性组合找到一些非常好的参数来识别,并将它们组合起来,然后相互输入,这就更疯狂了 线性组合的组合比我曾经认为的更容易表达。 这让我想知道,至少在简单的情况下,是否有可能可视化NN的决策过程 例如,如果我的输入是20x20灰度图像(即总共400个特征),而输出是与识别的数字对应的10个类别之一,我希望看到某

我被录取了,我刚刚开始学习神经网络

真正让我困惑的一件事是,一旦你找到线性组合的良好权重,如何识别如此“人性化”的东西,比如手写数字,变得很容易

当你明白一些看似抽象的东西(比如汽车)可以通过为线性组合找到一些非常好的参数来识别,并将它们组合起来,然后相互输入,这就更疯狂了

线性组合的组合比我曾经认为的更容易表达。
这让我想知道,至少在简单的情况下,是否有可能可视化NN的决策过程

例如,如果我的输入是20x20灰度图像(即总共400个特征),而输出是与识别的数字对应的10个类别之一,我希望看到某种视觉解释哪些线性组合级联导致NN得出结论。

我天真地想象,这可能是被识别图像上的视觉线索,可能是显示“对决策影响最大的像素”的温度图,或者任何有助于理解神经网络在特定情况下如何工作的东西


有没有神经网络演示可以做到这一点?

这不是对你问题的直接回答。我建议你看看卷积神经网络(CNN)。在CNN中,你几乎可以看到学习到的概念。您应该阅读本出版物:

Y.LeCun,L.Bottou,Y.Bengio和p.Haffner:,IEEE会议录,86(11):2278-23241998年11月

CNN通常被称为“可训练的特征提取器”。事实上,CNN实现了具有可训练系数的2D滤波器。这就是为什么第一层的激活通常显示为2D图像(参见图13)。在本文中,作者使用另一个技巧使网络更加透明:最后一层是径向基函数层(具有高斯函数),即。E计算每个类到(可调)原型的距离。通过查看最后一层的参数,您可以真正看到学习到的概念(参见图3)


然而,CNN是人工神经网络。但是各层之间没有完全连接,一些神经元拥有相同的权重。

也许这并不能直接回答这个问题,但我在这(我的重点)中发现了这个有趣的片段:

在本节中,我们将介绍两种可视化技术,以验证神经元的最佳刺激是否确实是一张脸。第一种方法是将测试集中反应最灵敏的刺激可视化。由于测试集很大,该方法可以可靠地检测到被测神经元的近似最优刺激。第二种方法是执行数值优化,以找到最佳刺激

这些可视化方法各有优缺点。例如,视觉化最灵敏的刺激可能会因适应噪音而受损。另一方面,数值优化方法容易受到局部极小值的影响。结果,如下所示,证实了被测神经元确实学习了面孔的概念

换句话说,他们采用了一个在识别人脸和表情方面表现最好的神经元

  • 从数据集中选择使其输出最高置信度的图像
  • 从数学上找到一个能获得最高条件的图像(不在数据集中)
看到它实际上“捕捉”了人脸的特征很有趣。
学习是无监督的,即输入数据没有说明图像是否为人脸

有趣的是,以下是为猫头和人体生成的“最佳输入”图像:


假设你指的是多层前馈网络,那么这些不仅仅是线性模型。但是,通过计算将任何像素连接到每个隐藏单元的绝对权重之和,您可能会得到关于哪些像素最重要的提示。您还可以可视化隐藏层以查看网络处理的内容。