Open source 嵌入式/可编写脚本的OCR引擎有哪些选项?

Open source 嵌入式/可编写脚本的OCR引擎有哪些选项?,open-source,ocr,Open Source,Ocr,我正在开发Python/django web应用程序,需要从扫描的文档中提取文本(用于搜索索引) OCR引擎有哪些选项?我知道tesseract,但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理(旋转、水平调整等)来解决 要求: 不需要手动调谐(初始调谐除外) 最好是开源的,或者可以购买“自由”许可证 Python模块或命令行程序(或可以转换为命令行程序的C库:) 或者: 这是一个很好的库,它可以进行图像预处理,从而使现有的引擎(如tesseract)的性能更好 Tesserac

我正在开发Python/django web应用程序,需要从扫描的文档中提取文本(用于搜索索引)

OCR引擎有哪些选项?我知道tesseract,但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理(旋转、水平调整等)来解决

要求:

  • 不需要手动调谐(初始调谐除外)
  • 最好是开源的,或者可以购买“自由”许可证
  • Python模块或命令行程序(或可以转换为命令行程序的C库:)
或者:

  • 这是一个很好的库,它可以进行图像预处理,从而使现有的引擎(如tesseract)的性能更好

Tesseract本身可以选择使用Leptonica进行编译,Leptonica是一个具有非常详尽的图像处理集的库(我不确定Tesseract本身是否只支持基本的TIF格式)。项目作者丹·布隆伯格(Dan Bloomberg)写了几篇关于OCR图像预处理的论文,你也可能对此感兴趣——你可以通过
网站:
谷歌搜索找到这些功能。

Tesseract本身可以选择使用Leptonica进行编译,一个包含相当详尽的图像处理集的库(我不确定Tesseract本身是否将其用于支持基本TIF格式之外的其他用途)。项目作者丹·布隆伯格(Dan Bloomberg)写了几篇关于OCR图像预处理的论文,你也可能对此感兴趣,你可以在
网站上找到这些功能:
谷歌搜索。

谢谢!我将再次尝试Tesseract,并继续寻找更好的(=更多automagic)预处理库。谢谢!我将再次尝试Tesseract,并继续寻找更好的(=更自动)预处理库。