Algorithm 使用OCR分离单词中连接字母的典型方法是什么

Algorithm 使用OCR分离单词中连接字母的典型方法是什么,algorithm,ocr,Algorithm,Ocr,我对OCR非常陌生,几乎对用于识别单词的算法一无所知。我只是越来越熟悉这一点 请问有谁能就识别和分离连接形式中的单个字符(我指的是所有字母都链接在一起的单词)的典型方法提供建议?忘了手写吧,假设字母是用已知字体连接在一起的,那么确定单词中每个字符的最佳方法是什么?当字符单独书写时没有问题,但是当它们连接在一起时,我们应该知道每个字符的开始和结束位置,以便进入下一步并将它们分别与字母匹配。 有什么已知的算法吗?这个过程的标准术语是“字符分割”——分割是一种图像处理术语,用于将图像分割成分组区域进行

我对OCR非常陌生,几乎对用于识别单词的算法一无所知。我只是越来越熟悉这一点

请问有谁能就识别和分离连接形式中的单个字符(我指的是所有字母都链接在一起的单词)的典型方法提供建议?忘了手写吧,假设字母是用已知字体连接在一起的,那么确定单词中每个字符的最佳方法是什么?当字符单独书写时没有问题,但是当它们连接在一起时,我们应该知道每个字符的开始和结束位置,以便进入下一步并将它们分别与字母匹配。
有什么已知的算法吗?

这个过程的标准术语是“字符分割”——分割是一种图像处理术语,用于将图像分割成分组区域进行识别。“阿拉伯字符分割”如果你想了解更多

我鼓励你看看,尤其是

中定义的功能对此有一些介绍,但这里有大量信息

基本上,Tesseract通过查看blob(不是字母)然后将这些blob组合成单词来解决问题。这样可以避免您描述的问题,同时创建新问题


对于阿拉伯语(正如你所指出的),Tesseract不起作用。我对这方面不太了解,但似乎暗示这是一种有用的技术。这将尝试拉伸单词以使其与已知单词匹配,并且再次在单词而不是字母空间中工作。

Tesseract不太可能处理像阿拉伯语这样的连接脚本。需要一些专门的算法来处理这种情况,但目前还没有。code.google.com/p/tesseract-ocr/wiki/trainingtesseract足够公平了。我以为你是在谈论它,用的是连接英语(ir草书)。希望这些想法是有用的。我将用阿拉伯语补充另一个答案。