Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/307.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何将PDF拆分为不同的列以进行OCR?(首选Python解决方案)_Python_Ocr_Tesseract_Arabic - Fatal编程技术网

如何将PDF拆分为不同的列以进行OCR?(首选Python解决方案)

如何将PDF拆分为不同的列以进行OCR?(首选Python解决方案),python,ocr,tesseract,arabic,Python,Ocr,Tesseract,Arabic,我有一本PDF格式的三栏词典,边框清晰 左栏为英语术语。中间柱的定义。右边是阿拉伯语 Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了 是否有一个Pythonic解决方案来垂直分割PDF,给我三个瘦PDF(每列一个),然后我可以运行Tesseract 我们的目标是将此表转换为CSV,因此如果有其他选项而不是切片,我也非常愿意这样做

我有一本PDF格式的三栏词典,边框清晰

左栏为英语术语。中间柱的定义。右边是阿拉伯语

Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了

是否有一个Pythonic解决方案来垂直分割PDF,给我三个瘦PDF(每列一个),然后我可以运行Tesseract

我们的目标是将此表转换为CSV,因此如果有其他选项而不是切片,我也非常愿意这样做