Character encoding 可以处理未知字符的开源OCR包?

Character encoding 可以处理未知字符的开源OCR包?,character-encoding,ocr,Character Encoding,Ocr,我想找到一个(最好)开源的OCR包(适用于任何操作系统),它能够处理新的字符集 这种语言是拉丁语,但有一些scribal缩写,大约10种不同的缩写不是Unicode 文本已使用专门开发的字体打印,我有文本的高分辨率图像 我假设需要进行一些培训,首先将scribal缩写映射到ASCII,然后可能需要对软件进行特定于语料库的培训,以了解缩写在单词中的位置 有人能推荐一个(最好)能够处理这个问题的开源软件包吗?AFAIK没有一个库(免费或商业)可以按原样用于您所描述的内容(一种字符不能用Unicode

我想找到一个(最好)开源的OCR包(适用于任何操作系统),它能够处理新的字符集

这种语言是拉丁语,但有一些scribal缩写,大约10种不同的缩写不是Unicode

文本已使用专门开发的字体打印,我有文本的高分辨率图像

我假设需要进行一些培训,首先将scribal缩写映射到ASCII,然后可能需要对软件进行特定于语料库的培训,以了解缩写在单词中的位置


有人能推荐一个(最好)能够处理这个问题的开源软件包吗?

AFAIK没有一个库(免费或商业)可以按原样用于您所描述的内容(一种字符不能用Unicode表示的语言)。。。但是作为一个好的起点,有一个开源的OCR,叫做OCR,你可以根据你的特殊场景使用和修改它。。。另一个有趣的基地可能是。。。但是要注意:这将意味着大量的工作。

开源OCR软件包并不多。如果Tesseract没有为你削减成本,那么你可能需要查看商业选项。为什么是否决票,否决票的人?“要求我们推荐或查找工具、库或喜爱的非网站资源的问题与堆栈溢出无关,因为这些问题往往会吸引固执己见的答案和垃圾邮件。相反,以及迄今为止为解决这些问题所做的工作。”