Machine learning 绘制符号识别:如何实现识别

Machine learning 绘制符号识别:如何实现识别,machine-learning,symbols,Machine Learning,Symbols,我试图实现用鼠标绘制的汉字识别。对于每个汉字,我打算识别一个样本文件,该文件为所有笔划提供固定图像分辨率下各自笔划的起始和结束位置 我想知道如何使用这些笔划信息进行汉字识别。我曾考虑使用笔划起点和终点之间的斜率,并将其用作机器学习的特征,但如果每个汉字只有一个样本,我将有约2000个类,每个汉字一个,数据稀疏性问题,每个汉字只有一组笔划信息。 有可能在这样一个稀疏的数据集上使用ML吗?您的模型可能会受到数据集稀疏性的影响,但仍有可能对其应用某些机器学习算法,特别是参数数量较少的简单算法。简而言之

我试图实现用鼠标绘制的汉字识别。对于每个汉字,我打算识别一个样本文件,该文件为所有笔划提供固定图像分辨率下各自笔划的起始和结束位置

我想知道如何使用这些笔划信息进行汉字识别。我曾考虑使用笔划起点和终点之间的斜率,并将其用作机器学习的特征,但如果每个汉字只有一个样本,我将有约2000个类,每个汉字一个,数据稀疏性问题,每个汉字只有一组笔划信息。
有可能在这样一个稀疏的数据集上使用ML吗?

您的模型可能会受到数据集稀疏性的影响,但仍有可能对其应用某些机器学习算法,特别是参数数量较少的简单算法。简而言之,试试看

然而,在我看来,你所描述的情况并不像乍一看那样糟糕。我想,根据一组有序的笔划来确定哪个汉字是相当简单的。困难在于首先识别笔划


因此,真正需要数据的机器学习任务是笔划识别。然而,这个模型每个类有远远不止一个样本,因为每个笔划都可能出现在多个汉字中。

首先,您可能会从源代码中获得一些灵感,因为它在幕府发行版中

然后,以每堂课一个汉字为例:当汉字非常相似时,这将不起作用。但是,您可以通过稍微扭曲您的汉字来生成虚拟示例,例如,剪切、旋转、缩放等。这就是Yann和其他许多人在MNIST上所做的