Machine learning 带DNN的异常数字分类

Machine learning 带DNN的异常数字分类,machine-learning,neural-network,image-recognition,deep-learning,conv-neural-network,Machine Learning,Neural Network,Image Recognition,Deep Learning,Conv Neural Network,我已经思考这个问题一段时间了,但我还没有找到一个我非常满意的答案 想象一下,我们已经在MNIST数字数据库上训练了一个DNN,该数据库能够以某种高精度对样本外的观测值进行分类。然后我们向DNN展示了不寻常的图像4和3,如下图所示。DNN会正确分类吗?我不这么认为,因为隐藏层根本不会在图像中显示具有不寻常数字(各种卷曲)的特征,所以它很可能会对它们进行错误分类 我还认为,在一个只包含如此不寻常数字的数据库上进行培训是很困难的。隐藏层将如何存储(非常相似的)功能?直觉上,它会过度适应这个数据库,因为

我已经思考这个问题一段时间了,但我还没有找到一个我非常满意的答案

想象一下,我们已经在MNIST数字数据库上训练了一个DNN,该数据库能够以某种高精度对样本外的观测值进行分类。然后我们向DNN展示了不寻常的图像4和3,如下图所示。DNN会正确分类吗?我不这么认为,因为隐藏层根本不会在图像中显示具有不寻常数字(各种卷曲)的特征,所以它很可能会对它们进行错误分类

我还认为,在一个只包含如此不寻常数字的数据库上进行培训是很困难的。隐藏层将如何存储(非常相似的)功能?直觉上,它会过度适应这个数据库,因为隐藏的神经元会学习所有不必要的特征,因为卷发之间的相似性

我认为训练这种DNN的方法是以某种方式学习构成数字的“条/卷”之间的角度,例如在数字“4”中,条之间有一个直的角度,但我不太确定。我也找不到一篇关于这个问题的论文


抱歉,但我认为尝试构建表示角度的功能并不符合DNNs的精神:深度学习的全部意义在于,您不再需要手动设计此类详细功能,而是让网络自动学习它们并发现与目标任务最相关的功能

对于你的问题,一种更“主流”的方法是利用现有的数字数据库,以这样的方式破坏数字图像,从而获得与示例相似的图片。例如,您可以尝试用随机曲率替换N个像素的直线

这种方法通常用于深度学习,以增加训练数据集,同时提高网络对某种噪声的鲁棒性。因此,经典的损坏方法包括平移/旋转数字图像


但请注意,对于您展示的两张图片,一个更简单的解决方案可能是模糊或像素化或减少定义,或者更好地通过剪裁计算光谱变换,以便仅捕获全局/较大的形状,并过滤掉较小的变化。

如果您查看MNIST上的最佳结果,您将看到,它们(上次我检查时)在训练期间的每个历元都使用弹性变形

在您的例子中,您必须添加这种类型的变形:弹性振荡(或?)


如果您确定只有这类信息,那么您可以尝试简化数字(曲线的主要部分,而不是这些振荡),然后将其交给您的DNN。

“如果您确定只有这类信息”-您是指卷发吗?是的,卷发,这里是我所说的弹性变形:当他们添加这种变形时,MNIST的结果得到了很大的改善老实说,我不知道第一眼或第二眼看到的图像代表了什么。但是,您是否尝试过对这些数字进行分类?除非你尝试,否则你不知道这是否可能。在MNIST上训练它,并创建A)一个类似于MNIST的手工测试集-只是普通手写数字,分类,作为你的控制测试,B)一组更古怪的数字,像这样。比较分类率,并将A)作为一种对照组。让我知道进展如何!否则,我会支持用户2637126的建议:模糊奇怪的数字,同样,MNIST,整体模式也会出现。“我不知道第一眼或第二眼看到的图像代表什么”-你读过问题了吗?刚开始的时候,上面写着“不寻常的4和3图像”不,我明白了。我的观点是,在阅读问题之前,我看了这张图片,在我意识到它们是什么之前,我必须看三遍。事实上,这意味着这确实是一个困难的问题。我们正在进入一个领域,ml在某些识别任务上比人类更好——这是令人兴奋的!现在,我发现CAPTCHA必须如此模糊,以至于我几乎无法阅读它们。另一个例子是,在对推特进行情绪分析时,最难分类的推特是讽刺性的推特。然而,真正的人类也很难在文本中对讽刺评论进行分类!另一个例子是在医学成像领域,计算机驱动的医学图像注释正变得比医学专业人员更好。我认为这是一个有趣的问题,原因如下:)“模糊或像素化”——你的意思是使用ConvNN?