Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/322.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何对OCR输出进行后期处理?_Python_Computer Vision_Ocr - Fatal编程技术网

Python 如何对OCR输出进行后期处理?

Python 如何对OCR输出进行后期处理?,python,computer-vision,ocr,Python,Computer Vision,Ocr,我有一个PDF文件,我应用了OCR(光学字符识别)算法来提取文本。OCR服务返回了以下JSON文件: { "lines": [ { 'boundingBox': [ 6.7467, 0.3876, 7.8658, 0.3983, 7.855, 0.8397, 6.7682, 0.8505 ], 'text':

我有一个PDF文件,我应用了OCR(光学字符识别)算法来提取文本。OCR服务返回了以下JSON文件:

{   
 "lines": [
  {    
      'boundingBox': [
       6.7467,
       0.3876,
       7.8658,
       0.3983,
       7.855,
       0.8397,
       6.7682,
       0.8505
      ],
      'text': 'Specification'
  },
  {
      'boundingBox': [
       5.7895,
       3.4379,
       6.2334,
       3.4379,
       6.2334,
       3.5699,
       5.7895,
       3.5699
       ],
      'text': 'is used to drill.'
  },
  {
      'boundingBox': [
       4.8845,
       3.4379,
       5.7149,
       3.4379,
       5.7149,
       3.6063,
       4.8845,
       3.6063
       ],
      'text': 'High speed drilling machine'
  }
]} 
我试图理解是否可以使用边界框构造文本?如果我只是合并
text
值,我会收到一个混乱的结果,因为短语似乎没有顺序。 在上面显示的示例中,第三个短语应该是第二个短语的开头

是否有一些库可以获取边界框并将提取的文本放入这些框中,然后根据边界框从左到右合并文本