Python 忽略裁剪内容从pdf中提取文本_Python_Pdf_Pdfbox_Pypdf_Pdfminer

Python 忽略裁剪内容从pdf中提取文本

python pdf

Python 忽略裁剪内容从pdf中提取文本,python,pdf,pdfbox,pypdf,pdfminer,Python,Pdf,Pdfbox,Pypdf,Pdfminer,我正在尝试从已裁剪的pdf文件中提取文本。也就是说，它有一个定义的cropbox，它只显示页面的一部分问题是裁剪的部分仍然存在于pdf文件中，只是不可见我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容 PyPDF2允许我使用以下方式访问cropbox的尺寸： pdfFileObj=open(path,'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.getPage(0).cr

我正在尝试从已裁剪的pdf文件中提取文本。也就是说，它有一个定义的cropbox，它只显示页面的一部分

问题是裁剪的部分仍然存在于pdf文件中，只是不可见

我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容

PyPDF2允许我使用以下方式访问cropbox的尺寸：

pdfFileObj=open(path,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.getPage(0).cropBox

但我不确定我能用它做什么。使用ApachePDFBox在java中裁剪这些文件。我更喜欢在python中只读取文件的未裁剪部分，但如果这是唯一的解决方案，我也可以对java代码进行修改，裁剪文件

非常感谢您的帮助。

如果PDFBox文本提取仅限于裁剪框，那么这对您来说是一个简单的解决方案。