用Python解析PDF公文包文件中的文本

用Python解析PDF公文包文件中的文本,python,pdf,pdf-parsing,Python,Pdf,Pdf Parsing,我有很多pdf文件,我使用pdfminer解析pdf文件中的上下文,还有一些文件是“pdf公文包”类型,与单个pdf文件不同 当我运行到这个文件时,它出现了一个错误“PSEOF:Unexpected EOF” 我使用的代码与人们通常使用的代码非常相似 def parseByPage(fname): fp = open(fname, 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_d

我有很多pdf文件,我使用pdfminer解析pdf文件中的上下文,还有一些文件是“pdf公文包”类型,与单个pdf文件不同

当我运行到这个文件时,它出现了一个错误“PSEOF:Unexpected EOF”

我使用的代码与人们通常使用的代码非常相似

def parseByPage(fname):
    fp = open(fname, 'rb')
    parser = PDFParser(fp)
    doc = PDFDocument(parser)
    parser.set_document(doc)
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    ...
错误从以下行开始:doc=PDFDocument(解析器)

我搜索了一种将“pdf公文包”文件转换为单个pdf文件的方法,但没有找到它,也没有从扩展名中识别文件类型,但看起来似乎无法将其与文件名/扩展名区分开来

对这个问题有什么想法吗

谢谢