Image 在低分辨率图像采集中检测子图像(旧文档扫描)

Image 在低分辨率图像采集中检测子图像(旧文档扫描),image,ocr,Image,Ocr,我的问题很简单。我收集了大量低质量的旧文档扫描,即用汉字书写的旧文本。我想检测包含一个单词的所有图像(由汉字组成,例如。城). 我曾经尝试过使用OCR(使用Tesseract),即使是受限的白名单,但它也无法识别出现的给定字符,这肯定是因为文档很旧,扫描的分辨率很低,因此字符模糊,甚至有时看起来缺少笔划(见下例) 因此,我想求助于其他图像分析技术,并将感谢您的建议。(请注意,我更喜欢在这里获得假阳性而不是假阴性。) 非常感谢您的时间和考虑 其他文件(应Mark的要求): 有趣的项目-你能

我的问题很简单。我收集了大量低质量的旧文档扫描,即用汉字书写的旧文本。我想检测包含一个单词的所有图像(由汉字组成,例如。城).

我曾经尝试过使用OCR(使用Tesseract),即使是受限的白名单,但它也无法识别出现的给定字符,这肯定是因为文档很旧,扫描的分辨率很低,因此字符模糊,甚至有时看起来缺少笔划(见下例)

因此,我想求助于其他图像分析技术,并将感谢您的建议。(请注意,我更喜欢在这里获得假阳性而不是假阴性。)

非常感谢您的时间和考虑


其他文件(应Mark的要求):


有趣的项目-你能提供第二份样本文档和几个“完美”的扫描结果吗存在于其中的字符?我认为OCR可能是错误的方法-我可能只看形状,也许做某种关联。嗨,蒂姆和马克,谢谢你的反馈。我也认为OCR在这种情况下是错误的方法,但对图像分析技术知之甚少。@MarkSetchell:我更新了我的问题和两份文件摘录,多处提到“kanjis”議員", 我还包括了Libreoffice Writer中使用不同字体编写的这些kanjis的屏幕截图(作为“完美”示例)。谁也不知道?我没想到这个问题会如此具有挑战性。有趣的项目-你能提供第二个示例文档和两个“完美”示例的扫描吗"存在于其中的字符?我认为OCR可能是错误的方法-我可能只看形状,也许做某种关联。嗨,蒂姆和马克,谢谢你的反馈。我也认为OCR在这种情况下是错误的方法,但对图像分析技术知之甚少。@MarkSetchell:我更新了我的问题和两份文件摘录,多处提到“kanjis”議員", 我还包括了一个在Libreoffice Writer中用不同字体书写的kanjis的截图(作为“完美”的例子)。谁也不知道?我没想到这个问题会有那么大的挑战性。