Machine learning 为什么线性模型在图像分类中起作用?

Machine learning 为什么线性模型在图像分类中起作用?,machine-learning,classification,linear-algebra,Machine Learning,Classification,Linear Algebra,我在认真研究机器学习的所有数学基础。我很清楚,它在数学上是有效的,但有一件事我无法得到 我的问题很简单: 为什么线性模型在将图像训练为字符(例如,使用notMNIST数据集作为训练源)分类模型时起作用?据我所知,使用线性模型,我们说输出是一个函数,输入的线性函数+偏置参数。但我已经知道,线性模型不适用于其他类型的应用 那么,为什么它适用于这个问题而不适用于其他问题呢?模型的复杂性随着问题的解决而变化。MNIST是一种非常简单的情况,由于输入(灰度中的正面数字)和输出(10位数字中的一位)的狭窄范

我在认真研究机器学习的所有数学基础。我很清楚,它在数学上是有效的,但有一件事我无法得到

我的问题很简单:

为什么线性模型在将图像训练为字符(例如,使用notMNIST数据集作为训练源)分类模型时起作用?据我所知,使用线性模型,我们说输出是一个函数,输入的线性函数+偏置参数。但我已经知道,线性模型不适用于其他类型的应用


那么,为什么它适用于这个问题而不适用于其他问题呢?

模型的复杂性随着问题的解决而变化。MNIST是一种非常简单的情况,由于输入(灰度中的正面数字)和输出(10位数字中的一位)的狭窄范围及其固有差异,它恰好容易受到线性组合的影响。例如,
4
9
具有不同的连通性,这是线性组合可以识别的特性。如果有足够的节点,MNIST模型可以很容易地训练到90年代后期

取而代之的是ILSVRC图像集,其中的区分取决于颜色、姿态、对象部分的相对比例(例如狼犬和狮子狗)以及其他大小特征。这些需要缩放、泛化、对干扰对象(例如前景中的灌木丛)的适应性和其他属性。一个足够大的线性网络可能会很好地区分十个类别,但不能精确区分1000个类别


我刚刚发现这有助于突出MNIST的复杂性。。。模型的复杂性随着问题的解决而变化。MNIST是一种非常简单的情况,由于输入(灰度中的正面数字)和输出(10位数字中的一位)的狭窄范围及其固有差异,它恰好容易受到线性组合的影响。例如,
4
9
具有不同的连通性,这是线性组合可以识别的特性。如果有足够的节点,MNIST模型可以很容易地训练到90年代后期

取而代之的是ILSVRC图像集,其中的区分取决于颜色、姿态、对象部分的相对比例(例如狼犬和狮子狗)以及其他大小特征。这些需要缩放、泛化、对干扰对象(例如前景中的灌木丛)的适应性和其他属性。一个足够大的线性网络可能会很好地区分十个类别,但不能精确区分1000个类别


我刚刚发现这有助于突出MNIST的复杂性。。。以及它的简化。

您参考的是什么线性分类模型?在我工作的图像处理领域,线性模型肯定不能很好地工作。你所作的一般性陈述并非普遍正确;您能否将其限定为一个有用的问题?例如,使用notMNIST数据集作为培训和验证源对字符进行分类。我已经编辑了这个问题。好的。。。您还使用了哪些应用程序进行比较?我并不是说它是最好的型号!但在我看来,这是不可思议的,它正在发挥作用。。。我使用TensorFlow训练了一个简单的模型,测试集的性能接近90%。与其他车型相比,这可能是一种耻辱,但是。。。我不能相信这一点,我也不明白这个结果的意义。你指的是什么线性分类模型?在我工作的图像处理领域,线性模型肯定不能很好地工作。你所作的一般性陈述并非普遍正确;您能否将其限定为一个有用的问题?例如,使用notMNIST数据集作为培训和验证源对字符进行分类。我已经编辑了这个问题。好的。。。您还使用了哪些应用程序进行比较?我并不是说它是最好的型号!但在我看来,这是不可思议的,它正在发挥作用。。。我使用TensorFlow训练了一个简单的模型,测试集的性能接近90%。与其他车型相比,这可能是一种耻辱,但是。。。我不敢相信,我也不明白这个结果的意思。好吧,你是说它是有效的,只是因为这个问题很简单,条件很好,对吗?它的工作几乎是偶然的。。。我可以在哪里找到更多关于“连通性”的信息,以了解为什么4和9有不同的连通性,以及为什么线性模型可以识别?在ILSRVC的案例中,您使用哪种型号?对。我不知道有一篇简单的论文是关于为什么阿拉伯数字的拓扑结构使它们容易受到线性训练的影响。对于ILSVRC。。。实际上,你应该只做一个浏览器搜索。如果有帮助,也可以使用术语“ImageNet”。。。这是一个很大的研究领域,我不想把它变成一个关于图像处理的教程——这超出了堆栈溢出的范围。谢谢你的澄清。好的,你是说它工作只是因为问题很简单并且“条件良好”,对吗?它的工作几乎是偶然的。。。我可以在哪里找到更多关于“连通性”的信息,以了解为什么4和9有不同的连通性,以及为什么线性模型可以识别?在ILSRVC的案例中,您使用哪种型号?对。我不知道有一篇简单的论文是关于为什么阿拉伯数字的拓扑结构使它们容易受到线性训练的影响。对于ILSVRC。。。实际上,你应该只做一个浏览器搜索。如果有帮助,也可以使用术语“ImageNet”。。。这是一个很大的研究领域,我不想把它变成关于图像处理的教程——这超出了堆栈溢出的范围。谢谢你的澄清。