使用python 3.5.0在windows 8上提取Pdf文本_Python_Pdf_Information Retrieval_Slate

使用python 3.5.0在windows 8上提取Pdf文本

python pdf

使用python 3.5.0在windows 8上提取Pdf文本,python,pdf,information-retrieval,slate,Python,Pdf,Information Retrieval,Slate,我想在windows8上借助slate软件包，使用python 3.5.0从Pdf文件中提取文本问题：尽管我在尝试导入slate时已成功安装slate软件包，但仍存在某些错误。请建议我缺少的内容错误：回溯（最近一次呼叫最后一次）：文件“”，第1行，在进口板岩文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu i

我想在windows8上借助slate软件包，使用python 3.5.0从Pdf文件中提取文本

问题：尽管我在尝试导入slate时已成功安装slate软件包，但仍存在某些错误。请建议我缺少的内容

错误：

回溯（最近一次呼叫最后一次）：文件“”，第1行，在进口板岩文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu init\uuuuuuuuu.py”，第66行，在从slate导入PDF

ImportError:无法导入名称“PDF”

slate依赖于PDFMiner（不支持Python 3）

您可以尝试通过以下方式安装它：

pip install PDFMiner

我安装了pdfminer3k，但它的响应并不好（文档也不好），所以我看了更多，找到了这个页面。如果其中任何一个满足，请告诉我。

您可以从库中尝试

pdftotext

（）

作为一个独立的程序，它不需要Python。但我经常从Python中将其用作子流程，如下所示：

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)

您可以安装pdfminer.six

pip install pdfminer.six