Python 是否可以使用Tesseract更改文本顺序?

Python 是否可以使用Tesseract更改文本顺序?,python,ocr,tesseract,Python,Ocr,Tesseract,我正在使用Tesseract python从扫描的pdf表格中提取文本。 使用以下方法正确提取数据: --psm 6:假定一个统一的文本块。我试过这种方法 extracted_text += image_to_string(Image.open(image), config='--psm 6') 我想改变课文的顺序。是否有一种方法可以提取单行中的每一列? 一个非常小的例子是: Header 1 Header 2 cell 11 cell 21 cell 12 cell

我正在使用Tesseract python从扫描的pdf表格中提取文本。 使用以下方法正确提取数据:

--psm 6
:假定一个统一的文本块。我试过这种方法

extracted_text +=  image_to_string(Image.open(image), config='--psm 6')
我想改变课文的顺序。是否有一种方法可以提取单行中的每一列? 一个非常小的例子是:

Header 1    Header 2
cell 11     cell 21
cell 12     cell 22
这就是我想要的:

Header 1   cell 11   cell 12
Header 2   cell 21   cell 22

那么你想转置已识别的数据?Tesseract无法做到这一点-Tesseract只是OCR引擎。如果我以数据帧格式获取数据,是否有其他方法可以做到这一点?因为我可以用tabla py代替tesseract。是的,pandas有函数转置。