如何将PDF拆分为不同的列以进行OCR?(首选Python解决方案)
我有一本PDF格式的三栏词典,边框清晰 左栏为英语术语。中间柱的定义。右边是阿拉伯语 Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了 是否有一个Pythonic解决方案来垂直分割PDF,给我三个瘦PDF(每列一个),然后我可以运行Tesseract 我们的目标是将此表转换为CSV,因此如果有其他选项而不是切片,我也非常愿意这样做如何将PDF拆分为不同的列以进行OCR?(首选Python解决方案),python,ocr,tesseract,arabic,Python,Ocr,Tesseract,Arabic,我有一本PDF格式的三栏词典,边框清晰 左栏为英语术语。中间柱的定义。右边是阿拉伯语 Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了 是否有一个Pythonic解决方案来垂直分割PDF,给我三个瘦PDF(每列一个),然后我可以运行Tesseract 我们的目标是将此表转换为CSV,因此如果有其他选项而不是切片,我也非常愿意这样做