Python 如何对OCR输出进行后期处理?
我有一个PDF文件,我应用了OCR(光学字符识别)算法来提取文本。OCR服务返回了以下JSON文件:Python 如何对OCR输出进行后期处理?,python,computer-vision,ocr,Python,Computer Vision,Ocr,我有一个PDF文件,我应用了OCR(光学字符识别)算法来提取文本。OCR服务返回了以下JSON文件: { "lines": [ { 'boundingBox': [ 6.7467, 0.3876, 7.8658, 0.3983, 7.855, 0.8397, 6.7682, 0.8505 ], 'text':
{
"lines": [
{
'boundingBox': [
6.7467,
0.3876,
7.8658,
0.3983,
7.855,
0.8397,
6.7682,
0.8505
],
'text': 'Specification'
},
{
'boundingBox': [
5.7895,
3.4379,
6.2334,
3.4379,
6.2334,
3.5699,
5.7895,
3.5699
],
'text': 'is used to drill.'
},
{
'boundingBox': [
4.8845,
3.4379,
5.7149,
3.4379,
5.7149,
3.6063,
4.8845,
3.6063
],
'text': 'High speed drilling machine'
}
]}
我试图理解是否可以使用边界框构造文本?如果我只是合并text
值,我会收到一个混乱的结果,因为短语似乎没有顺序。
在上面显示的示例中,第三个短语应该是第二个短语的开头
是否有一些库可以获取边界框并将提取的文本放入这些框中,然后根据边界框从左到右合并文本