Open source 嵌入式/可编写脚本的OCR引擎有哪些选项?
我正在开发Python/django web应用程序,需要从扫描的文档中提取文本(用于搜索索引) OCR引擎有哪些选项?我知道tesseract,但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理(旋转、水平调整等)来解决 要求:Open source 嵌入式/可编写脚本的OCR引擎有哪些选项?,open-source,ocr,Open Source,Ocr,我正在开发Python/django web应用程序,需要从扫描的文档中提取文本(用于搜索索引) OCR引擎有哪些选项?我知道tesseract,但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理(旋转、水平调整等)来解决 要求: 不需要手动调谐(初始调谐除外) 最好是开源的,或者可以购买“自由”许可证 Python模块或命令行程序(或可以转换为命令行程序的C库:) 或者: 这是一个很好的库,它可以进行图像预处理,从而使现有的引擎(如tesseract)的性能更好 Tesserac
- 不需要手动调谐(初始调谐除外)
- 最好是开源的,或者可以购买“自由”许可证
- Python模块或命令行程序(或可以转换为命令行程序的C库:)
- 这是一个很好的库,它可以进行图像预处理,从而使现有的引擎(如tesseract)的性能更好
网站:
谷歌搜索找到这些功能。Tesseract本身可以选择使用Leptonica进行编译,一个包含相当详尽的图像处理集的库(我不确定Tesseract本身是否将其用于支持基本TIF格式之外的其他用途)。项目作者丹·布隆伯格(Dan Bloomberg)写了几篇关于OCR图像预处理的论文,你也可能对此感兴趣,你可以在网站上找到这些功能:
谷歌搜索。谢谢!我将再次尝试Tesseract,并继续寻找更好的(=更多automagic)预处理库。谢谢!我将再次尝试Tesseract,并继续寻找更好的(=更自动)预处理库。