Python 将HOCR输出转换为字符串(用于正则表达式)的策略有哪些?

Python 将HOCR输出转换为字符串(用于正则表达式)的策略有哪些?,python,python-tesseract,hocr,Python,Python Tesseract,Hocr,我正在使用PyteSeract,希望将HOCR输出转换为字符串。当然,这样一个函数是在Pytesseract中实现的,但是我想知道更多关于在thx中实现它的可能策略 从PyteSeract导入图像到pdf或hocr hocr\u输出=图像到pdf\u或hocr(图像,扩展名为hocr) 由于是.xml的一种类型,我们可以使用.xml解析器 但首先我们需要将tesseract的二进制输出转换为str: from pytesseract import image_to_pdf_or_hocr ho

我正在使用PyteSeract,希望将HOCR输出转换为字符串。当然,这样一个函数是在Pytesseract中实现的,但是我想知道更多关于在thx中实现它的可能策略

从PyteSeract导入图像到pdf或hocr
hocr\u输出=图像到pdf\u或hocr(图像,扩展名为hocr)
由于是.xml的一种类型,我们可以使用.xml解析器

但首先我们需要将tesseract的二进制输出转换为str:

from pytesseract import image_to_pdf_or_hocr

hocr_output = image_to_pdf_or_hocr(image, extension='hocr')
hocr = hocr_output.decode('utf-8')
现在我们可以使用来解析它:

import xml.etree.ElementTree as ET

root = ET.fromstring(hocr)
xml.etree为我们提供了一个结果,我们可以将其加入到单个字符串中:

text = ''.join(root.itertext())