用Python解析PDF公文包文件中的文本
我有很多pdf文件,我使用pdfminer解析pdf文件中的上下文,还有一些文件是“pdf公文包”类型,与单个pdf文件不同 当我运行到这个文件时,它出现了一个错误“PSEOF:Unexpected EOF” 我使用的代码与人们通常使用的代码非常相似用Python解析PDF公文包文件中的文本,python,pdf,pdf-parsing,Python,Pdf,Pdf Parsing,我有很多pdf文件,我使用pdfminer解析pdf文件中的上下文,还有一些文件是“pdf公文包”类型,与单个pdf文件不同 当我运行到这个文件时,它出现了一个错误“PSEOF:Unexpected EOF” 我使用的代码与人们通常使用的代码非常相似 def parseByPage(fname): fp = open(fname, 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_d
def parseByPage(fname):
fp = open(fname, 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
parser.set_document(doc)
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
...
错误从以下行开始:doc=PDFDocument(解析器)
我搜索了一种将“pdf公文包”文件转换为单个pdf文件的方法,但没有找到它,也没有从扩展名中识别文件类型,但看起来似乎无法将其与文件名/扩展名区分开来
对这个问题有什么想法吗
谢谢