Python pdfminer3k在PDFPage中没有名为create_pages的方法_Python_Pdfminer

Python pdfminer3k在PDFPage中没有名为create_pages的方法

python

Python pdfminer3k在PDFPage中没有名为create_pages的方法,python,pdfminer,Python,Pdfminer,因为我想从Python2迁移到Python3.3，所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改，但我没有成功地用pdfminer3k解析pdf。例如：他们已将PDFDocument移动到pdfparser中（对不起，如果我拼写错误）。PDFPage以前有create_pages方法，现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗？似乎没有新的文档来反映任何更改。

因为我想从Python2迁移到Python3.3，所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改，但我没有成功地用pdfminer3k解析pdf。例如：

他们已将PDFDocument移动到pdfparser中（对不起，如果我拼写错误）。PDFPage以前有create_pages方法，现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗？似乎没有新的文档来反映任何更改。

如果您对阅读pdf文件中的文本感兴趣，以下代码将使用python 3.4与pdfminer3k一起使用

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine

fp = open('file.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument()
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in doc.get_pages():
    interpreter.process_page(page)
    layout = device.get_result()
    for lt_obj in layout:
        if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
            print(lt_obj.get_text())

fp.close()

也许，你可以用pdfminer.6。它的描述：

PDFMiner的分支使用six实现Python 2+3兼容性

使用pip安装后：

安装pdfminer.6

它的用法就像pdfminer一样，至少在我的代码中是这样

希望这能帮你节省时间：）

你到底在找什么？如何在pdfminer3k中

创建_页面

？我正在寻找基于新api的pdfminer和pdfminer3k的示例，这些api在任何地方都没有记录。我假设这不适用于扫描图像？因为我可能没有任何文本框或文本行。@jgltwart对于这种pdf文档，您必须将每个页面转换为图像，并在每个图像上使用OCR来获取文本。OCR的一个例子是Tesseract，有python代码，我可以确认这确实解决了所有unicode问题。哈哈：）我将这个答案与中接受的答案进行了比较，但这个答案并没有提取出我想尝试这个软件包要做的那么多文本，我知道我可以做

l=[]如果lt_obj.get_text（）中的“x”：l.append（page）

，但我如何将

保存为pdf格式？pdfminer3k没有创建页面的方法