用Python解析PDF公文包文件中的文本_Python_Pdf_Pdf Parsing

用Python解析PDF公文包文件中的文本

python pdf

用Python解析PDF公文包文件中的文本,python,pdf,pdf-parsing,Python,Pdf,Pdf Parsing,我有很多pdf文件，我使用pdfminer解析pdf文件中的上下文，还有一些文件是“pdf公文包”类型，与单个pdf文件不同当我运行到这个文件时，它出现了一个错误“PSEOF:Unexpected EOF” 我使用的代码与人们通常使用的代码非常相似 def parseByPage(fname): fp = open(fname, 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_d

我有很多pdf文件，我使用pdfminer解析pdf文件中的上下文，还有一些文件是“pdf公文包”类型，与单个pdf文件不同

当我运行到这个文件时，它出现了一个错误“PSEOF:Unexpected EOF”

我使用的代码与人们通常使用的代码非常相似

def parseByPage(fname):
    fp = open(fname, 'rb')
    parser = PDFParser(fp)
    doc = PDFDocument(parser)
    parser.set_document(doc)
    rsrcmgr = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    ...

错误从以下行开始：doc=PDFDocument（解析器）

我搜索了一种将“pdf公文包”文件转换为单个pdf文件的方法，但没有找到它，也没有从扩展名中识别文件类型，但看起来似乎无法将其与文件名/扩展名区分开来

对这个问题有什么想法吗

谢谢