Algorithm 使用OCR分离单词中连接字母的典型方法是什么_Algorithm_Ocr

Algorithm 使用OCR分离单词中连接字母的典型方法是什么

algorithm

Algorithm 使用OCR分离单词中连接字母的典型方法是什么,algorithm,ocr,Algorithm,Ocr,我对OCR非常陌生，几乎对用于识别单词的算法一无所知。我只是越来越熟悉这一点请问有谁能就识别和分离连接形式中的单个字符（我指的是所有字母都链接在一起的单词）的典型方法提供建议？忘了手写吧，假设字母是用已知字体连接在一起的，那么确定单词中每个字符的最佳方法是什么？当字符单独书写时没有问题，但是当它们连接在一起时，我们应该知道每个字符的开始和结束位置，以便进入下一步并将它们分别与字母匹配。有什么已知的算法吗？这个过程的标准术语是“字符分割”——分割是一种图像处理术语，用于将图像分割成分组区域进行

我对OCR非常陌生，几乎对用于识别单词的算法一无所知。我只是越来越熟悉这一点

请问有谁能就识别和分离连接形式中的单个字符（我指的是所有字母都链接在一起的单词）的典型方法提供建议？忘了手写吧，假设字母是用已知字体连接在一起的，那么确定单词中每个字符的最佳方法是什么？当字符单独书写时没有问题，但是当它们连接在一起时，我们应该知道每个字符的开始和结束位置，以便进入下一步并将它们分别与字母匹配。

有什么已知的算法吗？

这个过程的标准术语是“字符分割”——分割是一种图像处理术语，用于将图像分割成分组区域进行识别。“阿拉伯字符分割”如果你想了解更多

我鼓励你看看，尤其是

中定义的功能对此有一些介绍，但这里有大量信息

基本上，Tesseract通过查看blob（不是字母）然后将这些blob组合成单词来解决问题。这样可以避免您描述的问题，同时创建新问题

对于阿拉伯语（正如你所指出的），Tesseract不起作用。我对这方面不太了解，但似乎暗示这是一种有用的技术。这将尝试拉伸单词以使其与已知单词匹配，并且再次在单词而不是字母空间中工作。

Tesseract不太可能处理像阿拉伯语这样的连接脚本。需要一些专门的算法来处理这种情况，但目前还没有。code.google.com/p/tesseract-ocr/wiki/trainingtesseract足够公平了。我以为你是在谈论它，用的是连接英语（ir草书）。希望这些想法是有用的。我将用阿拉伯语补充另一个答案。