Python 无法使用PyteSeract读取文本
我试图从PDF中提取徽标 我正在应用高斯模糊,寻找轮廓,只提取图像。但是Tesseract无法从该图像读取文本Python 无法使用PyteSeract读取文本,python,ocr,tesseract,Python,Ocr,Tesseract,我试图从PDF中提取徽标 我正在应用高斯模糊,寻找轮廓,只提取图像。但是Tesseract无法从该图像读取文本 删除字母周围的边框通常有助于TeserAct更好地识别文本。因此,如果您尝试使用下面的图片编写脚本,您将有更好的机会阅读徽标 话虽如此,您可能会问,如何以类似的方式实现此徽标和其他徽标。我可以想出一些方法,但我认为最通用的解决方案可能是一个管道,其中文本检测算法和OCR相结合 因此,您可能希望签出这个提供了 您还可以通过应用一些不同的图像预处理技术来增强tesseract游戏。我最近
删除字母周围的边框通常有助于TeserAct更好地识别文本。因此,如果您尝试使用下面的图片编写脚本,您将有更好的机会阅读徽标 话虽如此,您可能会问,如何以类似的方式实现此徽标和其他徽标。我可以想出一些方法,但我认为最通用的解决方案可能是一个管道,其中文本检测算法和OCR相结合
这张图片对你有效吗?对我无效。如果对你有效,请分享代码。谢谢,链接。我喜欢它。我用上面的链接做过类似的工作,但我不允许分享。Tesseract的设计目的不是从徽标读取文本,事实上,它只能读取清晰可见的文本。你应该想办法从图像中提取文本。我的建议是使用一个已经做到这一点的代码,去玩吧。即使这样,你也可能会遇到问题,因为那里的角色是倾斜的,而且距离太近。在进行其他图像处理之前,我尝试过不同的阈值滤波器,我结合高斯模糊和自适应阈值的滤波器能够读取它。