Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/302.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/EmptyTag/144.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PyteSeract读取包含流行数字字体的计算机生成图像的准确度如何?_Python_Tesseract_Python Tesseract - Fatal编程技术网

Python PyteSeract读取包含流行数字字体的计算机生成图像的准确度如何?

Python PyteSeract读取包含流行数字字体的计算机生成图像的准确度如何?,python,tesseract,python-tesseract,Python,Tesseract,Python Tesseract,我试图用tesseract翻译文本图像。从我的试验来看,结果似乎是准确的。然而,我似乎也可以训练tesseract,使其更精确,尽管复杂 我的问题是,对于包含流行字体(如times new roman、arial等)的数字图像,图像到文本功能的开箱即用tesseract的可靠性有多高?通常取决于图像的内容-如果存在一些噪音或与文本背景无关(徽标/表格/只是随机的东西)-质量会下降,特别是当文本与噪声的对比度不够大时 这还取决于文本大小:如果您有多个具有不同字体大小的文本区域,您很可能需要分别处理

我试图用tesseract翻译文本图像。从我的试验来看,结果似乎是准确的。然而,我似乎也可以训练tesseract,使其更精确,尽管复杂


我的问题是,对于包含流行字体(如times new roman、arial等)的数字图像,图像到文本功能的开箱即用tesseract的可靠性有多高?

通常取决于图像的内容-如果存在一些噪音或与文本背景无关(徽标/表格/只是随机的东西)-质量会下降,特别是当文本与噪声的对比度不够大时

这还取决于文本大小:如果您有多个具有不同字体大小的文本区域,您很可能需要分别处理这些区域(或者确定不同的PSM模式是否可以帮助您),因此很难准备一个在所有情况下都能工作的通用解决方案


一般来说,您可以访问页面并尝试按照其中的所有说明进行操作。

跟进:质量方面,我认为这是可靠的,您建议如何提高阅读速度?我现在每页24秒,如果可能的话,我希望将其减少到1秒或更短。为了提高性能-您需要重新缩放图像或裁剪文本,然后再重新缩放。另一个选项是使用不同的TesserData-tesseract允许您使用更快(更不准确)的文件-检查
TesserData fast
存储库