Python 无法使用PyteSeract读取文本_Python_Ocr_Tesseract

Python 无法使用PyteSeract读取文本

python

Python 无法使用PyteSeract读取文本,python,ocr,tesseract,Python,Ocr,Tesseract,我试图从PDF中提取徽标我正在应用高斯模糊，寻找轮廓，只提取图像。但是Tesseract无法从该图像读取文本删除字母周围的边框通常有助于TeserAct更好地识别文本。因此，如果您尝试使用下面的图片编写脚本，您将有更好的机会阅读徽标话虽如此，您可能会问，如何以类似的方式实现此徽标和其他徽标。我可以想出一些方法，但我认为最通用的解决方案可能是一个管道，其中文本检测算法和OCR相结合因此，您可能希望签出这个提供了您还可以通过应用一些不同的图像预处理技术来增强tesseract游戏。我最近

我试图从PDF中提取徽标

我正在应用高斯模糊，寻找轮廓，只提取图像。但是Tesseract无法从该图像读取文本

删除字母周围的边框通常有助于TeserAct更好地识别文本。因此，如果您尝试使用下面的图片编写脚本，您将有更好的机会阅读徽标

话虽如此，您可能会问，如何以类似的方式实现此徽标和其他徽标。我可以想出一些方法，但我认为最通用的解决方案可能是一个管道，其中文本检测算法和OCR相结合

因此，您可能希望签出这个提供了

您还可以通过应用一些不同的图像预处理技术来增强tesseract游戏。我最近写了一本非常简单的Tesseract指南和一些图像预处理技术。如果您想查看，我在这里与您共享以下链接：

但是，您也对这个特定的徽标或字体感兴趣，您也可以按照给出的说明尝试使用这种字体训练tesseract

这张图片对你有效吗？对我无效。如果对你有效，请分享代码。谢谢，链接。我喜欢它。我用上面的链接做过类似的工作，但我不允许分享。Tesseract的设计目的不是从徽标读取文本，事实上，它只能读取清晰可见的文本。你应该想办法从图像中提取文本。我的建议是使用一个已经做到这一点的代码，去玩吧。即使这样，你也可能会遇到问题，因为那里的角色是倾斜的，而且距离太近。在进行其他图像处理之前，我尝试过不同的阈值滤波器，我结合高斯模糊和自适应阈值的滤波器能够读取它。