Python 将多个PDF转换为TXT
我想将数百个不同格式和大小的PDF文件转换为txt文件,并努力找到一个外行的选择 最好的方法是什么? 我已经尝试了一些预先打包的软件PDF2Text试点,但它只是。。。没用 我也遵循了python指南,但似乎无法从正确的目录打开python,因为我在这方面的知识不太丰富 你推荐什么方法 谢谢 如果您不习惯不使用python,为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了Python 将多个PDF转换为TXT,python,pdf,web-scraping,converter,Python,Pdf,Web Scraping,Converter,我想将数百个不同格式和大小的PDF文件转换为txt文件,并努力找到一个外行的选择 最好的方法是什么? 我已经尝试了一些预先打包的软件PDF2Text试点,但它只是。。。没用 我也遵循了python指南,但似乎无法从正确的目录打开python,因为我在这方面的知识不太丰富 你推荐什么方法 谢谢 如果您不习惯不使用python,为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了 find /path/to/pdfs -name '*.pdf
find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext
在shell中获取PDF的所有文本版本。这将是相当快的。如有必要,您可以使用从python运行此命令
import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)
我认为这将比使用本地python方法更快、更简单,但如果需要,我可以提供一种方法 听起来很有趣!我是python的新手,安装起来容易吗@摩德西提——相当不错。你在@Lewis上使用什么操作系统?
import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)