Python 忽略裁剪内容从pdf中提取文本
我正在尝试从已裁剪的pdf文件中提取文本。也就是说,它有一个定义的cropbox,它只显示页面的一部分 问题是裁剪的部分仍然存在于pdf文件中,只是不可见 我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容 PyPDF2允许我使用以下方式访问cropbox的尺寸:Python 忽略裁剪内容从pdf中提取文本,python,pdf,pdfbox,pypdf,pdfminer,Python,Pdf,Pdfbox,Pypdf,Pdfminer,我正在尝试从已裁剪的pdf文件中提取文本。也就是说,它有一个定义的cropbox,它只显示页面的一部分 问题是裁剪的部分仍然存在于pdf文件中,只是不可见 我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容 PyPDF2允许我使用以下方式访问cropbox的尺寸: pdfFileObj=open(path,'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.getPage(0).cr
pdfFileObj=open(path,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.getPage(0).cropBox
但我不确定我能用它做什么。使用ApachePDFBox在java中裁剪这些文件。我更喜欢在python中只读取文件的未裁剪部分,但如果这是唯一的解决方案,我也可以对java代码进行修改,裁剪文件
非常感谢您的帮助。如果PDFBox文本提取仅限于裁剪框,那么这对您来说是一个简单的解决方案。