Unicode 教OCR理解NSA和FISC修订

Unicode 教OCR理解NSA和FISC修订,unicode,imagemagick,ocr,tesseract,leptonica,Unicode,Imagemagick,Ocr,Tesseract,Leptonica,我保存着一份来自外国情报监视法庭的大量编辑文件的档案 它们带有如下所示的大段文本: 当OCR尝试处理此问题时,您会得到如下文本: 在90天内每天生成此数据。唯一的目的是 生产是为了获取外国情报信息以支持 为防止国际恐怖主义和恐怖主义而授权的个人调查 所以在OCRD版本中,有黑点的地方,只是缺少单词。有时,缺少的单词会创建一个语法正确的句子,具有不同/奇怪的含义(如上文所述)。其他时候,产生的句子毫无意义,但无论如何都是个问题。如果OCR引擎能够为这些点或类似Unicode的方块返回X,那就更好

我保存着一份来自外国情报监视法庭的大量编辑文件的档案

它们带有如下所示的大段文本:

当OCR尝试处理此问题时,您会得到如下文本:

在90天内每天生成此数据。唯一的目的是

生产是为了获取外国情报信息以支持

为防止国际恐怖主义和恐怖主义而授权的个人调查

所以在OCRD版本中,有黑点的地方,只是缺少单词。有时,缺少的单词会创建一个语法正确的句子,具有不同/奇怪的含义(如上文所述)。其他时候,产生的句子毫无意义,但无论如何都是个问题。如果OCR引擎能够为这些点或类似Unicode的方块返回X,那就更好了▮▮▮▮ 相反

我想要的结果是:

在90天内每天生成此数据。唯一的目的是

生产是为了获取外国情报信息以支持XXXXXXXXXX

为防止国际恐怖主义和恐怖主义而授权的个人调查


我的问题是如何获得这些X。有没有办法分析图像来识别黑点?有没有办法用X或更好的unicode字符替换它们?我愿意接受任何使这看起来正确的想法,但图像编辑对我来说并不适合,也不适合深入OCR引擎进行黑客攻击。

你可能想训练Tesseract处理那些长斑点。根据blob的长度,可以指定不同数量的“X”字符。阅读培训流程