Python pdfminer3k在PDFPage中没有名为create_pages的方法
因为我想从Python2迁移到Python3.3,所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改,但我没有成功地用pdfminer3k解析pdf。例如:Python pdfminer3k在PDFPage中没有名为create_pages的方法,python,pdfminer,Python,Pdfminer,因为我想从Python2迁移到Python3.3,所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改,但我没有成功地用pdfminer3k解析pdf。例如: 他们已将PDFDocument移动到pdfparser中(对不起,如果我拼写错误)。PDFPage以前有create_pages方法,现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗?似乎没有新的文档来反映任何更改。
他们已将PDFDocument移动到pdfparser中(对不起,如果我拼写错误)。PDFPage以前有create_pages方法,现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗?似乎没有新的文档来反映任何更改。如果您对阅读pdf文件中的文本感兴趣,以下代码将使用python 3.4与pdfminer3k一起使用
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine
fp = open('file.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument()
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in doc.get_pages():
interpreter.process_page(page)
layout = device.get_result()
for lt_obj in layout:
if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
print(lt_obj.get_text())
fp.close()
也许,你可以用pdfminer.6。 它的描述: PDFMiner的分支使用six实现Python 2+3兼容性 使用pip安装后: 安装pdfminer.6 它的用法就像pdfminer一样,至少在我的代码中是这样
希望这能帮你节省时间:)你到底在找什么?如何在pdfminer3k中
创建_页面
?我正在寻找基于新api的pdfminer和pdfminer3k的示例,这些api在任何地方都没有记录。我假设这不适用于扫描图像?因为我可能没有任何文本框或文本行。@jgltwart对于这种pdf文档,您必须将每个页面转换为图像,并在每个图像上使用OCR来获取文本。OCR的一个例子是Tesseract,有python代码,我可以确认这确实解决了所有unicode问题。哈哈:)我将这个答案与中接受的答案进行了比较,但这个答案并没有提取出我想尝试这个软件包要做的那么多文本,我知道我可以做l=[]如果lt_obj.get_text()中的“x”:l.append(page)
,但我如何将l
保存为pdf格式?pdfminer3k没有创建页面的方法