Language agnostic 识别图像时，神经网络决策过程是否可视化？_Language Agnostic_Machine Learning_Neural Network_Ocr_Image Recognition

Language agnostic 识别图像时，神经网络决策过程是否可视化？

language-agnostic machine-learning neural-network

Language agnostic 识别图像时，神经网络决策过程是否可视化？,language-agnostic,machine-learning,neural-network,ocr,image-recognition,Language Agnostic,Machine Learning,Neural Network,Ocr,Image Recognition,我被录取了，我刚刚开始学习神经网络真正让我困惑的一件事是，一旦你找到线性组合的良好权重，如何识别如此“人性化”的东西，比如手写数字，变得很容易当你明白一些看似抽象的东西（比如汽车）可以通过为线性组合找到一些非常好的参数来识别，并将它们组合起来，然后相互输入，这就更疯狂了线性组合的组合比我曾经认为的更容易表达。这让我想知道，至少在简单的情况下，是否有可能可视化NN的决策过程例如，如果我的输入是20x20灰度图像（即总共400个特征），而输出是与识别的数字对应的10个类别之一，我希望看到某

我被录取了，我刚刚开始学习神经网络

真正让我困惑的一件事是，一旦你找到线性组合的良好权重，如何识别如此“人性化”的东西，比如手写数字，变得很容易

当你明白一些看似抽象的东西（比如汽车）可以通过为线性组合找到一些非常好的参数来识别，并将它们组合起来，然后相互输入，这就更疯狂了

线性组合的组合比我曾经认为的更容易表达。
这让我想知道，至少在简单的情况下，是否有可能可视化NN的决策过程

例如，如果我的输入是20x20灰度图像（即总共400个特征），而输出是与识别的数字对应的10个类别之一，我希望看到某种视觉解释哪些线性组合级联导致NN得出结论。

我天真地想象，这可能是被识别图像上的视觉线索，可能是显示“对决策影响最大的像素”的温度图，或者任何有助于理解神经网络在特定情况下如何工作的东西

有没有神经网络演示可以做到这一点？

这不是对你问题的直接回答。我建议你看看卷积神经网络（CNN）。在CNN中，你几乎可以看到学习到的概念。您应该阅读本出版物：

Y.LeCun，L.Bottou，Y.Bengio和p.Haffner:，IEEE会议录，86（11）：2278-23241998年11月

CNN通常被称为“可训练的特征提取器”。事实上，CNN实现了具有可训练系数的2D滤波器。这就是为什么第一层的激活通常显示为2D图像（参见图13）。在本文中，作者使用另一个技巧使网络更加透明：最后一层是径向基函数层（具有高斯函数），即。E计算每个类到（可调）原型的距离。通过查看最后一层的参数，您可以真正看到学习到的概念（参见图3）

然而，CNN是人工神经网络。但是各层之间没有完全连接，一些神经元拥有相同的权重。

也许这并不能直接回答这个问题，但我在这（我的重点）中发现了这个有趣的片段：

在本节中，我们将介绍两种可视化技术，以验证神经元的最佳刺激是否确实是一张脸。第一种方法是将测试集中反应最灵敏的刺激可视化。由于测试集很大，该方法可以可靠地检测到被测神经元的近似最优刺激。第二种方法是执行数值优化，以找到最佳刺激

这些可视化方法各有优缺点。例如，视觉化最灵敏的刺激可能会因适应噪音而受损。另一方面，数值优化方法容易受到局部极小值的影响。结果，如下所示，证实了被测神经元确实学习了面孔的概念

换句话说，他们采用了一个在识别人脸和表情方面表现最好的神经元

从数据集中选择使其输出最高置信度的图像
从数学上找到一个能获得最高条件的图像（不在数据集中）

看到它实际上“捕捉”了人脸的特征很有趣。
学习是无监督的，即输入数据没有说明图像是否为人脸
有趣的是，以下是为猫头和人体生成的“最佳输入”图像：

假设你指的是多层前馈网络，那么这些不仅仅是线性模型。但是，通过计算将任何像素连接到每个隐藏单元的绝对权重之和，您可能会得到关于哪些像素最重要的提示。您还可以可视化隐藏层以查看网络处理的内容。