使用python 3.5.0在windows 8上提取Pdf文本

使用python 3.5.0在windows 8上提取Pdf文本,python,pdf,information-retrieval,slate,Python,Pdf,Information Retrieval,Slate,我想在windows8上借助slate软件包,使用python 3.5.0从Pdf文件中提取文本 问题:尽管我在尝试导入slate时已成功安装slate软件包,但仍存在某些错误。请建议我缺少的内容 错误: 回溯(最近一次呼叫最后一次): 文件“”,第1行,在 进口板岩 文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu i

我想在windows8上借助slate软件包,使用python 3.5.0从Pdf文件中提取文本

问题:尽管我在尝试导入slate时已成功安装slate软件包,但仍存在某些错误。请建议我缺少的内容

错误:

回溯(最近一次呼叫最后一次): 文件“”,第1行,在 进口板岩 文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu init\uuuuuuuuu.py”,第66行,在 从slate导入PDF

ImportError:无法导入名称“PDF”

slate依赖于PDFMiner(不支持Python 3)

您可以尝试通过以下方式安装它:

pip install PDFMiner

我安装了pdfminer3k,但它的响应并不好(文档也不好),所以我看了更多,找到了这个页面。如果其中任何一个满足,请告诉我。

您可以从库中尝试
pdftotext
()

作为一个独立的程序,它不需要Python。但我经常从Python中将其用作子流程,如下所示:

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)

您可以安装pdfminer.six

pip install pdfminer.six