Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/314.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 忽略裁剪内容从pdf中提取文本_Python_Pdf_Pdfbox_Pypdf_Pdfminer - Fatal编程技术网

Python 忽略裁剪内容从pdf中提取文本

Python 忽略裁剪内容从pdf中提取文本,python,pdf,pdfbox,pypdf,pdfminer,Python,Pdf,Pdfbox,Pypdf,Pdfminer,我正在尝试从已裁剪的pdf文件中提取文本。也就是说,它有一个定义的cropbox,它只显示页面的一部分 问题是裁剪的部分仍然存在于pdf文件中,只是不可见 我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容 PyPDF2允许我使用以下方式访问cropbox的尺寸: pdfFileObj=open(path,'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.getPage(0).cr

我正在尝试从已裁剪的pdf文件中提取文本。也就是说,它有一个定义的cropbox,它只显示页面的一部分

问题是裁剪的部分仍然存在于pdf文件中,只是不可见

我试过PyPDF2、pdfquery和pdfminer。他们都阅读了包括裁剪部分在内的全部内容

PyPDF2允许我使用以下方式访问cropbox的尺寸:

pdfFileObj=open(path,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.getPage(0).cropBox
但我不确定我能用它做什么。使用ApachePDFBox在java中裁剪这些文件。我更喜欢在python中只读取文件的未裁剪部分,但如果这是唯一的解决方案,我也可以对java代码进行修改,裁剪文件


非常感谢您的帮助。

如果PDFBox文本提取仅限于裁剪框,那么这对您来说是一个简单的解决方案。