Image 在低分辨率图像采集中检测子图像（旧文档扫描）_Image_Ocr

Image 在低分辨率图像采集中检测子图像（旧文档扫描）

image

Image 在低分辨率图像采集中检测子图像（旧文档扫描）,image,ocr,Image,Ocr,我的问题很简单。我收集了大量低质量的旧文档扫描，即用汉字书写的旧文本。我想检测包含一个单词的所有图像（由汉字组成，例如。城). 我曾经尝试过使用OCR（使用Tesseract），即使是受限的白名单，但它也无法识别出现的给定字符，这肯定是因为文档很旧，扫描的分辨率很低，因此字符模糊，甚至有时看起来缺少笔划（见下例）因此，我想求助于其他图像分析技术，并将感谢您的建议。（请注意，我更喜欢在这里获得假阳性而不是假阴性。）非常感谢您的时间和考虑其他文件（应Mark的要求）：有趣的项目-你能

我的问题很简单。我收集了大量低质量的旧文档扫描，即用汉字书写的旧文本。我想检测包含一个单词的所有图像（由汉字组成，例如。城).

我曾经尝试过使用OCR（使用Tesseract），即使是受限的白名单，但它也无法识别出现的给定字符，这肯定是因为文档很旧，扫描的分辨率很低，因此字符模糊，甚至有时看起来缺少笔划（见下例）

因此，我想求助于其他图像分析技术，并将感谢您的建议。（请注意，我更喜欢在这里获得假阳性而不是假阴性。）

非常感谢您的时间和考虑

其他文件（应Mark的要求）：

有趣的项目-你能提供第二份样本文档和几个“完美”的扫描结果吗存在于其中的字符？我认为OCR可能是错误的方法-我可能只看形状，也许做某种关联。嗨，蒂姆和马克，谢谢你的反馈。我也认为OCR在这种情况下是错误的方法，但对图像分析技术知之甚少。@MarkSetchell:我更新了我的问题和两份文件摘录，多处提到“kanjis”議員", 我还包括了Libreoffice Writer中使用不同字体编写的这些kanjis的屏幕截图（作为“完美”示例）。谁也不知道？我没想到这个问题会如此具有挑战性。有趣的项目-你能提供第二个示例文档和两个“完美”示例的扫描吗"存在于其中的字符？我认为OCR可能是错误的方法-我可能只看形状，也许做某种关联。嗨，蒂姆和马克，谢谢你的反馈。我也认为OCR在这种情况下是错误的方法，但对图像分析技术知之甚少。@MarkSetchell:我更新了我的问题和两份文件摘录，多处提到“kanjis”議員", 我还包括了一个在Libreoffice Writer中用不同字体书写的kanjis的截图（作为“完美”的例子）。谁也不知道？我没想到这个问题会有那么大的挑战性。