Python 包围盒检测后的OCR_Python_Image Processing_Ocr_Bounding Box

Python 包围盒检测后的OCR

python image-processing

Python 包围盒检测后的OCR,python,image-processing,ocr,bounding-box,Python,Image Processing,Ocr,Bounding Box,我正在尝试使用python查找某些单词在不同书籍中出现的频率。为此，我试图找到每个单词周围的边界框输入：- 以及在执行二值化和其他形态学操作以检测边界框后得到的输出：- 我的问题是,，我需要使用pytesser执行ocr。我当前的实现相当糟糕。我目前正在将检测到的每个边界框保存到小png文件中。然后分别运行pytesser的代码，该代码在每个包含单词的小图像中循环。这个过程占用了我的系统是否有其他方法可以将我的图像（由边界框检测）直接输入pytesser而不首先保存它们在我的代码运行之

我正在尝试使用python查找某些单词在不同书籍中出现的频率。为此，我试图找到每个单词周围的边界框

输入：-

以及在执行二值化和其他形态学操作以检测边界框后得到的输出：-

我的问题是,，我需要使用pytesser执行ocr。我当前的实现相当糟糕。我目前正在将检测到的每个边界框保存到小png文件中。然后分别运行pytesser的代码，该代码在每个包含单词的小图像中循环。这个过程占用了我的系统

是否有其他方法可以将我的图像（由边界框检测）直接输入pytesser而不首先保存它们

在我的代码运行之后，我有一个544个（在本例中）边界框的列表，如

                    [minrow, mincol, maxrow, maxcol].

你为什么不在整个东西上运行OCR，然后把它分成几个字呢？pytesser在这种情况下运行得非常糟糕。从ocr中产生的大多数单词都是杂乱无章的。此外，拍摄的输入图像来自一本书，因此右侧也有一些倾斜，如果作为一个整体输入，会导致文本进一步失真。啊，好的。在内部，Pytesser似乎正在根据您作为输入提供的内容创建自己的临时文件，这很奇怪：。因此，它似乎最终为每个输入生成了两个临时文件

util.image\u to\u scratch

看起来像是罪魁祸首。