Python PyteSeract处理单个图像的速度非常慢
我已经通过Python PyteSeract处理单个图像的速度非常慢,python,tesseract,python-tesseract,Python,Tesseract,Python Tesseract,我已经通过pytesseract在python中运行了Tesseract 使用碰巧包含600字左右的报纸文章的图像,pytesseract.image_to_string函数大约需要20秒才能完成 最终的结果是很好的,但由于速度太慢,没有什么用处 该图像的文件大小为3.5MB,分辨率为3024 × 4032(如果有用)。它已经通过opencv完成了预处理 大约18到20秒的时间段在我的本地机器上运行,在上传到谷歌云平台时也是如此 是否有任何人可以推荐加快这一进程的方法 所使用的pytessera
pytesseract
在python中运行了Tesseract
使用碰巧包含600字左右的报纸文章的图像,pytesseract.image_to_string
函数大约需要20秒才能完成
最终的结果是很好的,但由于速度太慢,没有什么用处
该图像的文件大小为3.5MB,分辨率为3024 × 4032(如果有用)。它已经通过opencv
完成了预处理
大约18到20秒的时间段在我的本地机器上运行,在上传到谷歌云平台时也是如此
是否有任何人可以推荐加快这一进程的方法
所使用的
pytesseract
版本为0.2.5。您可以尝试从中使用TesserData;这会降低OCR质量,但会提高性能。您还可以缩小图像的比例。这也会降低质量,但会提高性能。你的图像有很多噪声吗?这会减慢细分速度。您应该将图像缩小到300dpi左右。@DmitriiZ。谢谢你的评论。我试着缩小比例,但对于任何能给出合理结果的东西来说,速度仍然很慢。我无法确定如何添加tesseract_fast库。@LachlanLindsay可以在此处找到图像示例(预处理完成后):