Automation 基于多个OCR软件包的输出改进OCR结果的软件

Automation 基于多个OCR软件包的输出改进OCR结果的软件,automation,ocr,Automation,Ocr,是否有一个已经存在的商业或学术软件可以 覆盖结果来自多个OCR包Abbyy FineReader、Adobe Acrobat Professional、ReadIris等。 基于来自多个来源的累积知识提供全自动改进 允许在运行时使用额外的外部工具设置词典、批量web/本地语料库查找等。 ? 注意:我已经有了从单一来源可视化结果的内部解决方案,因此,如果没有这样的软件,我不介意开发自己的软件:那么,对合作的询问也将是最受欢迎的! 来源:在多个OCR引擎之间使用投票的想法并不新鲜。问题是它没有真正起

是否有一个已经存在的商业或学术软件可以

覆盖结果来自多个OCR包Abbyy FineReader、Adobe Acrobat Professional、ReadIris等。 基于来自多个来源的累积知识提供全自动改进 允许在运行时使用额外的外部工具设置词典、批量web/本地语料库查找等。 ?

注意:我已经有了从单一来源可视化结果的内部解决方案,因此,如果没有这样的软件,我不介意开发自己的软件:那么,对合作的询问也将是最受欢迎的!
来源:

在多个OCR引擎之间使用投票的想法并不新鲜。问题是它没有真正起作用。如果它们本质上是简单的分类器或正交分类器,那么你可以将它们的投票组合起来并改进结果。但它们都是非常复杂的软件,使用非常相似的一组众所周知的方法,差异很小,但可能以不同的方式组合它们,有些实现更好,有些则更差

经验表明,当您结合多种OCR技术时,最好的决策规则是依赖最准确的一种技术的结果,而仅依赖于其他技术的结果。根据我在ABBYY工作的经验,ABBYY OCR肯定是你提到的最准确的


据我所知,使用投票的唯一原因是当你想交叉检查可疑字符,并将其发送给手动验证,如果100%的准确性是一项要求。使用这种方法,您可以增加要验证的字符数,但可以减少漏掉错误字符的可能性。

我以前使用过两种方法,建议使用这两种方法

PrimeOCR。 它是一种商业产品,使用多个OCR引擎和投票来确定最佳结果。这是机器印刷的。上次我用的时候,他们有6个引擎。联系亚历克斯·达尔

我曾在一个大型项目中使用它,每天扫描20000多页

从OpenText重新启动。
RecoStar使用投票,可以进行手工打印和机器打印。

@Andrey:根据我的经验,ABBYY OCR肯定是你提到的最准确的。我想说的是,OmniPage还不错,在准确性上接近ABBYY,速度也快了一点。但如果准确性是优先考虑的,我肯定会选择ABBYY