Unicode 教OCR理解NSA和FISC修订_Unicode_Imagemagick_Ocr_Tesseract_Leptonica

Unicode 教OCR理解NSA和FISC修订

unicode imagemagick

Unicode 教OCR理解NSA和FISC修订,unicode,imagemagick,ocr,tesseract,leptonica,Unicode,Imagemagick,Ocr,Tesseract,Leptonica,我保存着一份来自外国情报监视法庭的大量编辑文件的档案它们带有如下所示的大段文本：当OCR尝试处理此问题时，您会得到如下文本：在90天内每天生成此数据。唯一的目的是生产是为了获取外国情报信息以支持为防止国际恐怖主义和恐怖主义而授权的个人调查所以在OCRD版本中，有黑点的地方，只是缺少单词。有时，缺少的单词会创建一个语法正确的句子，具有不同/奇怪的含义（如上文所述）。其他时候，产生的句子毫无意义，但无论如何都是个问题。如果OCR引擎能够为这些点或类似Unicode的方块返回X，那就更好

我保存着一份来自外国情报监视法庭的大量编辑文件的档案

它们带有如下所示的大段文本：

当OCR尝试处理此问题时，您会得到如下文本：

在90天内每天生成此数据。唯一的目的是

生产是为了获取外国情报信息以支持

为防止国际恐怖主义和恐怖主义而授权的个人调查

所以在OCRD版本中，有黑点的地方，只是缺少单词。有时，缺少的单词会创建一个语法正确的句子，具有不同/奇怪的含义（如上文所述）。其他时候，产生的句子毫无意义，但无论如何都是个问题。如果OCR引擎能够为这些点或类似Unicode的方块返回X，那就更好了▮▮▮▮ 相反

我想要的结果是：

在90天内每天生成此数据。唯一的目的是

生产是为了获取外国情报信息以支持XXXXXXXXXX

为防止国际恐怖主义和恐怖主义而授权的个人调查

我的问题是如何获得这些X。有没有办法分析图像来识别黑点？有没有办法用X或更好的unicode字符替换它们？我愿意接受任何使这看起来正确的想法，但图像编辑对我来说并不适合，也不适合深入OCR引擎进行黑客攻击。

你可能想训练Tesseract处理那些长斑点。根据blob的长度，可以指定不同数量的“X”字符。阅读培训流程