使用python 3.5.0在windows 8上提取Pdf文本
我想在windows8上借助slate软件包,使用python 3.5.0从Pdf文件中提取文本使用python 3.5.0在windows 8上提取Pdf文本,python,pdf,information-retrieval,slate,Python,Pdf,Information Retrieval,Slate,我想在windows8上借助slate软件包,使用python 3.5.0从Pdf文件中提取文本 问题:尽管我在尝试导入slate时已成功安装slate软件包,但仍存在某些错误。请建议我缺少的内容 错误: 回溯(最近一次呼叫最后一次): 文件“”,第1行,在 进口板岩 文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu i
问题:尽管我在尝试导入slate时已成功安装slate软件包,但仍存在某些错误。请建议我缺少的内容 错误: 回溯(最近一次呼叫最后一次): 文件“”,第1行,在 进口板岩 文件“C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site packages\slate-0.4.1-py3.5.egg\slate\uuuuuuuu init\uuuuuuuuu.py”,第66行,在 从slate导入PDF ImportError:无法导入名称“PDF” slate依赖于PDFMiner(不支持Python 3) 您可以尝试通过以下方式安装它:
pip install PDFMiner
我安装了pdfminer3k,但它的响应并不好(文档也不好),所以我看了更多,找到了这个页面。如果其中任何一个满足,请告诉我。您可以从库中尝试
pdftotext
()
作为一个独立的程序,它不需要Python。但我经常从Python中将其用作子流程,如下所示:
import subprocess
args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)
您可以安装pdfminer.six
pip install pdfminer.six