Machine learning 带DNN的异常数字分类_Machine Learning_Neural Network_Image Recognition_Deep Learning_Conv Neural Network

Machine learning 带DNN的异常数字分类

machine-learning neural-network deep-learning

Machine learning 带DNN的异常数字分类,machine-learning,neural-network,image-recognition,deep-learning,conv-neural-network,Machine Learning,Neural Network,Image Recognition,Deep Learning,Conv Neural Network,我已经思考这个问题一段时间了，但我还没有找到一个我非常满意的答案想象一下，我们已经在MNIST数字数据库上训练了一个DNN，该数据库能够以某种高精度对样本外的观测值进行分类。然后我们向DNN展示了不寻常的图像4和3，如下图所示。DNN会正确分类吗？我不这么认为，因为隐藏层根本不会在图像中显示具有不寻常数字（各种卷曲）的特征，所以它很可能会对它们进行错误分类我还认为，在一个只包含如此不寻常数字的数据库上进行培训是很困难的。隐藏层将如何存储（非常相似的）功能？直觉上，它会过度适应这个数据库，因为

我已经思考这个问题一段时间了，但我还没有找到一个我非常满意的答案

想象一下，我们已经在MNIST数字数据库上训练了一个DNN，该数据库能够以某种高精度对样本外的观测值进行分类。然后我们向DNN展示了不寻常的图像4和3，如下图所示。DNN会正确分类吗？我不这么认为，因为隐藏层根本不会在图像中显示具有不寻常数字（各种卷曲）的特征，所以它很可能会对它们进行错误分类

我还认为，在一个只包含如此不寻常数字的数据库上进行培训是很困难的。隐藏层将如何存储（非常相似的）功能？直觉上，它会过度适应这个数据库，因为隐藏的神经元会学习所有不必要的特征，因为卷发之间的相似性

我认为训练这种DNN的方法是以某种方式学习构成数字的“条/卷”之间的角度，例如在数字“4”中，条之间有一个直的角度，但我不太确定。我也找不到一篇关于这个问题的论文

抱歉，但我认为尝试构建表示角度的功能并不符合DNNs的精神：深度学习的全部意义在于，您不再需要手动设计此类详细功能，而是让网络自动学习它们并发现与目标任务最相关的功能

对于你的问题，一种更“主流”的方法是利用现有的数字数据库，以这样的方式破坏数字图像，从而获得与示例相似的图片。例如，您可以尝试用随机曲率替换N个像素的直线

这种方法通常用于深度学习，以增加训练数据集，同时提高网络对某种噪声的鲁棒性。因此，经典的损坏方法包括平移/旋转数字图像

但请注意，对于您展示的两张图片，一个更简单的解决方案可能是模糊或像素化或减少定义，或者更好地通过剪裁计算光谱变换，以便仅捕获全局/较大的形状，并过滤掉较小的变化。

如果您查看MNIST上的最佳结果，您将看到，它们（上次我检查时）在训练期间的每个历元都使用弹性变形

在您的例子中，您必须添加这种类型的变形：弹性振荡（或？）

如果您确定只有这类信息，那么您可以尝试简化数字（曲线的主要部分，而不是这些振荡），然后将其交给您的DNN。

“如果您确定只有这类信息”-您是指卷发吗？是的，卷发，这里是我所说的弹性变形：当他们添加这种变形时，MNIST的结果得到了很大的改善老实说，我不知道第一眼或第二眼看到的图像代表了什么。但是，您是否尝试过对这些数字进行分类？除非你尝试，否则你不知道这是否可能。在MNIST上训练它，并创建A）一个类似于MNIST的手工测试集-只是普通手写数字，分类，作为你的控制测试，B）一组更古怪的数字，像这样。比较分类率，并将A）作为一种对照组。让我知道进展如何！否则，我会支持用户2637126的建议：模糊奇怪的数字，同样，MNIST，整体模式也会出现。“我不知道第一眼或第二眼看到的图像代表什么”-你读过问题了吗？刚开始的时候，上面写着“不寻常的4和3图像”不，我明白了。我的观点是，在阅读问题之前，我看了这张图片，在我意识到它们是什么之前，我必须看三遍。事实上，这意味着这确实是一个困难的问题。我们正在进入一个领域，ml在某些识别任务上比人类更好——这是令人兴奋的！现在，我发现CAPTCHA必须如此模糊，以至于我几乎无法阅读它们。另一个例子是，在对推特进行情绪分析时，最难分类的推特是讽刺性的推特。然而，真正的人类也很难在文本中对讽刺评论进行分类！另一个例子是在医学成像领域，计算机驱动的医学图像注释正变得比医学专业人员更好。我认为这是一个有趣的问题，原因如下：）“模糊或像素化”——你的意思是使用ConvNN？