Nlp 如何组合多种OCR工具的结果以获得更好的文本识别

Nlp 如何组合多种OCR工具的结果以获得更好的文本识别,nlp,computer-vision,ocr,sensor-fusion,Nlp,Computer Vision,Ocr,Sensor Fusion,想象一下,您有不同的OCR工具从图像中读取文本,但没有一个工具可以提供100%的准确输出。然而,综合起来,结果可能非常接近基本事实——将文本“融合”在一起以获得良好结果的最佳技术是什么 例如: 实际文本 § 5.1: The contractor is obliged to announce the delay by 01.01.2019 at the latest. The identification-number to be used is OZ-771LS. 光学字符识别工具1 5 5

想象一下,您有不同的OCR工具从图像中读取文本,但没有一个工具可以提供100%的准确输出。然而,综合起来,结果可能非常接近基本事实——将文本“融合”在一起以获得良好结果的最佳技术是什么

例如:

实际文本

§ 5.1: The contractor is obliged to announce the delay by 01.01.2019 at the latest. The identification-number to be used is OZ-771LS.
光学字符识别工具1

5 5.1 The contractor is obliged to announce the delay by O1.O1.2019 at the latest. The identification-number to be used is OZ77lLS.
光学字符识别工具2

§5.1: The contract or is obliged to announce theedelay by 01.O1. 2O19 at the latest. The identification number to be used is O7-771LS
光学字符识别工具3

§ 5.1: The contractor is oblige to do announced he delay by 01.01.2019 at the latest. T he identification-number ti be used is OZ-771LS.
什么样的算法可以融合OCR 1、2和3以获得实际文本

我的第一个想法是创建一个任意长度的“翻滚窗口”,比较窗口中的单词,并从每个位置的3个工具预测中选择2个单词

例如,窗口大小为3:

[5 5.1 The] 
如您所见,该算法不起作用,因为所有三种工具都有不同的候选位置(5、§5.1:和§)


当然,可以添加一些技巧,如Levenshtein距离,以允许一些偏差,但我担心这实际上不够稳健。

将其视为合并问题可能会有所帮助。不过,这不是一个无关紧要的话题。
[§5.1: The contract] 
[§ 5.1: The]