Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/343.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Tesseract ocr在放大图像大小时表现怪异。如何知道哪种比例因子最适合某些特定类型的图像?_Python_Ocr_Tesseract_Python Tesseract - Fatal编程技术网

Python Tesseract ocr在放大图像大小时表现怪异。如何知道哪种比例因子最适合某些特定类型的图像?

Python Tesseract ocr在放大图像大小时表现怪异。如何知道哪种比例因子最适合某些特定类型的图像?,python,ocr,tesseract,python-tesseract,Python,Ocr,Tesseract,Python Tesseract,我有这个 形象与 我尝试了以下python代码 我从下载了“eng”并将其重命名为“eng_best” img=cv2.imread(文件路径) lang=“eng_best” 对于范围(1,8)内的img_比例系数: 打印(文件路径、图像缩放因子) img=cv2.调整大小(img,无,fx=img\u比例因子,fy=img\u比例因子) hocr_data=pytesseract.image_to_pdf_或_hocr(img,extension=“hocr”,lang=lang,confi

我有这个 形象与 我尝试了以下python代码
我从下载了“eng”并将其重命名为“eng_best”

img=cv2.imread(文件路径)
lang=“eng_best”
对于范围(1,8)内的img_比例系数:
打印(文件路径、图像缩放因子)
img=cv2.调整大小(img,无,fx=img\u比例因子,fy=img\u比例因子)
hocr_data=pytesseract.image_to_pdf_或_hocr(img,extension=“hocr”,lang=lang,config=“--dpi 1”)
文件名={0:03d}{jpg{1}{x{3}.{2}.格式(6,lang,“hocr”,img_比例系数)
将open(os.path.join(savediv,文件名),'w+b')作为f:
f、 写入(hocr_数据)
打印(“输出-{}”。格式(文件名))
我尝试了上面的代码,使用从
1
7
img\u比例因子
对给定图像进行缩放
以下是输出文件:







我们可以清楚地观察到输出

  • img\u scale\u factor
    1到2
    -增加ocr结果

  • 对于
    img\u scale\u factor
    3
    -所有ocr结果中最好的

  • img\u scale\u factor
    4到7
    -降低ocr结果

  • 对于该特定图像,
    img\u scale\u factor
    3
    提供最佳结果

    在不检查某些特定类型图像的每个比例因子的ocr的情况下,我们如何找出哪个比例因子最好? 可能这可以通过固定最小字体和最大字体大小来解决。
    有没有办法配置最小字体大小和最大字体大小

    编辑: 正如刚才提到的 他们建议小写“x”的文本高度应在10到30像素之间。

    我计算了x高度的比例因子,1是25px,2是50px,3是75px,以此类推。在这种情况下,当x高度为75px时,它会显示更精确的结果。

    我认为这种方法可以检测图像中的轮廓。您可以注意到不同高度轮廓所需的重缩放。这可以为您提供数据,以确定不同大小的文本需要多少重缩放。然后,对于任何新图像,您只需使用从轮廓检测到的高度找到文本的大小,然后应用适当的重新缩放。在Tesseract上,他们建议小写“x”的文本高度应在10到30 px之间。i计算了缩放因子的x高度,对于1,它是25px,对于2,它是50px,对于3,它是75px,依此类推。在这种情况下,当x高度为75px时,显示更精确的结果。