Python 3.x Python-pdf-to-txt-only返回(CID:number)
我有5个pdf文件,我想转换成txt文件。其中3个文件工作正常。其他2个仅返回(CID:编号),f.e.: (cid:47)(cid:57)(cid:3)(cid:69)(cid:72) 我用pdfminer写代码。 有人知道如何修复或调整我的代码吗 顺便说一句:文本是德语,没有CJK,我试着在页面上转换文件,结果成功了 这是我的密码:Python 3.x Python-pdf-to-txt-only返回(CID:number),python-3.x,pdfminer,pdftotext,Python 3.x,Pdfminer,Pdftotext,我有5个pdf文件,我想转换成txt文件。其中3个文件工作正常。其他2个仅返回(CID:编号),f.e.: (cid:47)(cid:57)(cid:3)(cid:69)(cid:72) 我用pdfminer写代码。 有人知道如何修复或调整我的代码吗 顺便说一句:文本是德语,没有CJK,我试着在页面上转换文件,结果成功了 这是我的密码: import sys import io from pdfminer.pdfparser import PDFParser from pdfminer.pdfp
import sys
import io
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
# importieren Modul regex
import re
import os
filename = 'test.pdf'
page_start_input = 24
pages = list(range((page_start_input-1),500))
def pdfparser(data):
fp = open(data, 'rb')
resource_manager = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
pagenos = set(pages)
laparams = LAParams()
device = TextConverter(resource_manager, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(resource_manager, device)
for page in PDFPage.get_pages(fp, pagenos):
interpreter.process_page(page)
data = retstr.getvalue()
# print (data)
file = open("test_out.txt", "w", encoding='utf-8')
file.write(data)
file.close()
pdfparser(filename)
这已经在下面的链接中得到了回答:谢谢