如何将PDF拆分为不同的列以进行OCR？（首选Python解决方案）_Python_Ocr_Tesseract_Arabic

如何将PDF拆分为不同的列以进行OCR？（首选Python解决方案）

python

如何将PDF拆分为不同的列以进行OCR？（首选Python解决方案）,python,ocr,tesseract,arabic,Python,Ocr,Tesseract,Arabic,我有一本PDF格式的三栏词典，边框清晰左栏为英语术语。中间柱的定义。右边是阿拉伯语 Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了是否有一个Pythonic解决方案来垂直分割PDF，给我三个瘦PDF（每列一个），然后我可以运行Tesseract 我们的目标是将此表转换为CSV，因此如果有其他选项而不是切片，我也非常愿意这样做

我有一本PDF格式的三栏词典，边框清晰

左栏为英语术语。中间柱的定义。右边是阿拉伯语

Tesseract可以很好地识别两种语言。但当他们在同一页上时就不是了

是否有一个Pythonic解决方案来垂直分割PDF，给我三个瘦PDF（每列一个），然后我可以运行Tesseract

我们的目标是将此表转换为CSV，因此如果有其他选项而不是切片，我也非常愿意这样做