Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/elixir/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pdfminer3k在PDFPage中没有名为create_pages的方法_Python_Pdfminer - Fatal编程技术网

Python pdfminer3k在PDFPage中没有名为create_pages的方法

Python pdfminer3k在PDFPage中没有名为create_pages的方法,python,pdfminer,Python,Pdfminer,因为我想从Python2迁移到Python3.3,所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改,但我没有成功地用pdfminer3k解析pdf。例如: 他们已将PDFDocument移动到pdfparser中(对不起,如果我拼写错误)。PDFPage以前有create_pages方法,现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗?似乎没有新的文档来反映任何更改。

因为我想从Python2迁移到Python3.3,所以我尝试在Python3.4中使用pdfmine.3kr。看起来他们已经编辑了所有的东西。他们的更改日志没有反映他们所做的更改,但我没有成功地用pdfminer3k解析pdf。例如:


他们已将PDFDocument移动到pdfparser中(对不起,如果我拼写错误)。PDFPage以前有create_pages方法,现在已经不存在了。我在PDFPage中看到的只是内部方法。有人有pdfminer3k的工作示例吗?似乎没有新的文档来反映任何更改。

如果您对阅读pdf文件中的文本感兴趣,以下代码将使用python 3.4与pdfminer3k一起使用

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine

fp = open('file.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument()
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in doc.get_pages():
    interpreter.process_page(page)
    layout = device.get_result()
    for lt_obj in layout:
        if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
            print(lt_obj.get_text())

fp.close()

也许,你可以用pdfminer.6。 它的描述:

PDFMiner的分支使用six实现Python 2+3兼容性

使用pip安装后:

安装pdfminer.6

它的用法就像pdfminer一样,至少在我的代码中是这样


希望这能帮你节省时间:)

你到底在找什么?如何在pdfminer3k中
创建_页面
?我正在寻找基于新api的pdfminer和pdfminer3k的示例,这些api在任何地方都没有记录。我假设这不适用于扫描图像?因为我可能没有任何文本框或文本行。@jgltwart对于这种pdf文档,您必须将每个页面转换为图像,并在每个图像上使用OCR来获取文本。OCR的一个例子是Tesseract,有python代码,我可以确认这确实解决了所有unicode问题。哈哈:)我将这个答案与中接受的答案进行了比较,但这个答案并没有提取出我想尝试这个软件包要做的那么多文本,我知道我可以做
l=[]如果lt_obj.get_text()中的“x”:l.append(page)
,但我如何将
l
保存为pdf格式?pdfminer3k没有创建页面的方法