Python 将多个PDF转换为TXT_Python_Pdf_Web Scraping_Converter

Python 将多个PDF转换为TXT

python pdf web-scraping

Python 将多个PDF转换为TXT,python,pdf,web-scraping,converter,Python,Pdf,Web Scraping,Converter,我想将数百个不同格式和大小的PDF文件转换为txt文件，并努力找到一个外行的选择最好的方法是什么？我已经尝试了一些预先打包的软件PDF2Text试点，但它只是。。。没用我也遵循了python指南，但似乎无法从正确的目录打开python，因为我在这方面的知识不太丰富你推荐什么方法谢谢如果您不习惯不使用python，为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了 find /path/to/pdfs -name '*.pdf

我想将数百个不同格式和大小的PDF文件转换为txt文件，并努力找到一个外行的选择

最好的方法是什么？我已经尝试了一些预先打包的软件PDF2Text试点，但它只是。。。没用

我也遵循了python指南，但似乎无法从正确的目录打开python，因为我在这方面的知识不太丰富

你推荐什么方法

谢谢

如果您不习惯不使用python，为什么不使用utils中的shell pdftotext命令呢。它在数字PDF中运行得非常好。然后你就可以跑了

find /path/to/pdfs -name '*.pdf' -print0 | xargs -0 -n1 pdftotext

在shell中获取PDF的所有文本版本。这将是相当快的。如有必要，您可以使用从python运行此命令

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)

我认为这将比使用本地python方法更快、更简单，但如果需要，我可以提供一种方法

听起来很有趣！我是python的新手，安装起来容易吗@摩德西提——相当不错。你在@Lewis上使用什么操作系统？

import subprocess
command = 'find /path/to/pdfs -name \'*.pdf\' -print0 | xargs -0 -n1 pdftotext'
process = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
process.wait()
print(process.returncode)