Open source 嵌入式/可编写脚本的OCR引擎有哪些选项？_Open Source_Ocr

Open source 嵌入式/可编写脚本的OCR引擎有哪些选项？

open-source

Open source 嵌入式/可编写脚本的OCR引擎有哪些选项？,open-source,ocr,Open Source,Ocr,我正在开发Python/django web应用程序，需要从扫描的文档中提取文本（用于搜索索引） OCR引擎有哪些选项？我知道tesseract，但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理（旋转、水平调整等）来解决要求：不需要手动调谐（初始调谐除外）最好是开源的，或者可以购买“自由”许可证 Python模块或命令行程序（或可以转换为命令行程序的C库：）或者：这是一个很好的库，它可以进行图像预处理，从而使现有的引擎（如tesseract）的性能更好 Tesserac

我正在开发Python/django web应用程序，需要从扫描的文档中提取文本（用于搜索索引）

OCR引擎有哪些选项？我知道tesseract，但我对结果并不完全满意。这个问题也许可以通过更广泛的预处理（旋转、水平调整等）来解决

要求：

不需要手动调谐（初始调谐除外）
最好是开源的，或者可以购买“自由”许可证
Python模块或命令行程序（或可以转换为命令行程序的C库：）

或者：

这是一个很好的库，它可以进行图像预处理，从而使现有的引擎（如tesseract）的性能更好

Tesseract本身可以选择使用Leptonica进行编译，Leptonica是一个具有非常详尽的图像处理集的库（我不确定Tesseract本身是否只支持基本的TIF格式）。项目作者丹·布隆伯格（Dan Bloomberg）写了几篇关于OCR图像预处理的论文，你也可能对此感兴趣——你可以通过

网站：

谷歌搜索找到这些功能。

Tesseract本身可以选择使用Leptonica进行编译，一个包含相当详尽的图像处理集的库（我不确定Tesseract本身是否将其用于支持基本TIF格式之外的其他用途）。项目作者丹·布隆伯格（Dan Bloomberg）写了几篇关于OCR图像预处理的论文，你也可能对此感兴趣，你可以在

网站上找到这些功能：

谷歌搜索。

谢谢！我将再次尝试Tesseract，并继续寻找更好的（=更多automagic）预处理库。谢谢！我将再次尝试Tesseract，并继续寻找更好的（=更自动）预处理库。