Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/310.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将多个PDF转换为TXT_Python_Pdf_Web Scraping_Converter - Fatal编程技术网

Python 将多个PDF转换为TXT

Python 将多个PDF转换为TXT,python,pdf,web-scraping,converter,Python,Pdf,Web Scraping,Converter,我想将数百个不同格式和大小的PDF文件转换为txt文件,并努力找到一个外行的选择 最好的方法是什么? 我已经尝试了一些预先打包的软件PDF2Text试点,但它只是。。。没用 我也遵循了python指南,但似乎无法从正确的目录打开python,因为我在这方面的知识不太丰富 你推荐什么方法 谢谢 如果您不习惯不使用python,为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了 find /path/to/pdfs -name '*.pdf

我想将数百个不同格式和大小的PDF文件转换为txt文件,并努力找到一个外行的选择

最好的方法是什么? 我已经尝试了一些预先打包的软件PDF2Text试点,但它只是。。。没用

我也遵循了python指南,但似乎无法从正确的目录打开python,因为我在这方面的知识不太丰富

你推荐什么方法

谢谢

如果您不习惯不使用python,为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了

find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext
在shell中获取PDF的所有文本版本。这将是相当快的。如有必要,您可以使用从python运行此命令

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)

我认为这将比使用本地python方法更快、更简单,但如果需要,我可以提供一种方法

听起来很有趣!我是python的新手,安装起来容易吗@摩德西提——相当不错。你在@Lewis上使用什么操作系统?
import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)