Python 3.x Python-pdf-to-txt-only返回（CID:number）_Python 3.x_Pdfminer_Pdftotext

Python 3.x Python-pdf-to-txt-only返回（CID:number）

python-3.x

Python 3.x Python-pdf-to-txt-only返回（CID:number）,python-3.x,pdfminer,pdftotext,Python 3.x,Pdfminer,Pdftotext,我有5个pdf文件，我想转换成txt文件。其中3个文件工作正常。其他2个仅返回（CID:编号），f.e.：（cid:47）（cid:57）（cid:3）（cid:69）（cid:72）我用pdfminer写代码。有人知道如何修复或调整我的代码吗顺便说一句：文本是德语，没有CJK，我试着在页面上转换文件，结果成功了这是我的密码： import sys import io from pdfminer.pdfparser import PDFParser from pdfminer.pdfp

我有5个pdf文件，我想转换成txt文件。其中3个文件工作正常。其他2个仅返回（CID:编号），f.e.：

（cid:47）（cid:57）（cid:3）（cid:69）（cid:72）

我用pdfminer写代码。有人知道如何修复或调整我的代码吗

顺便说一句：文本是德语，没有CJK，我试着在页面上转换文件，结果成功了

这是我的密码：

import sys
import io
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter

# importieren Modul regex
import re
import os

filename = 'test.pdf'

page_start_input = 24
pages = list(range((page_start_input-1),500))

def pdfparser(data):
    fp = open(data, 'rb')
    resource_manager = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    pagenos = set(pages)
    laparams = LAParams()
    device = TextConverter(resource_manager, retstr, codec=codec, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)


    for page in PDFPage.get_pages(fp, pagenos):
        interpreter.process_page(page)
        data = retstr.getvalue()
    # print (data)

    file = open("test_out.txt", "w", encoding='utf-8')
    file.write(data)
    file.close()



pdfparser(filename)

这已经在下面的链接中得到了回答：谢谢