Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中?
我必须定期查看pdf文件列表,搜索特定数据,并将其添加到excel表格中,以备日后查看。由于每月pdf文件的数量约为50个,手动操作既耗时又令人沮丧 这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗?我需要有一个文件夹中的所有pdf文件,并运行脚本,这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的,并且具有类似的结构 您可以使用Python从PDF中提取数据Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中?,python,vba,excel,pdf,Python,Vba,Excel,Pdf,我必须定期查看pdf文件列表,搜索特定数据,并将其添加到excel表格中,以备日后查看。由于每月pdf文件的数量约为50个,手动操作既耗时又令人沮丧 这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗?我需要有一个文件夹中的所有pdf文件,并运行脚本,这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的,并且具有类似的结构 您可以使用Python从PDF中提取数据 或者,您可以使用属于是的一部分的pdftotext。不,也许吧 这里的问题不是从PDF文
或者,您可以使用属于是的一部分的
pdftotext
。不,也许吧
这里的问题不是从PDF文档中提取内容。提取内容几乎总是可能的,而且有很多工具可用于从PDF文档中提取内容。文本,图像,任何你需要的
主要问题(以及“否”或“可能”的原因)是PDF通常不是结构化文件格式。它不关心列、段落、表格、句子甚至单词。在一般情况下,它只关心页面上特定位置的字符
这意味着,在一般情况下,您不能查询PDF文档并要求它查找每一段或第五段中的第三句话。您可以要求库获取所有文本或特定位置的所有文本。然后你必须希望图书馆能够以清晰的格式提取你需要的文本。因为你甚至不必从PDF文件中复制、粘贴或其他额外的可理解字符。许多PDF文件甚至没有包含足够的信息
所以。。。如果您有一个特定类型的文档,并且可以使用特定的提取引擎测试它的行为是否可以预测,那么可以从PDF文件中提取信息
如果您收到的PDF文件一直不同,或者页面上的布局每次都完全不同,那么答案可能是您无法可靠地提取所需的信息
作为旁注:有一些特定类型的PDF文档比其他文档更容易处理,所以如果你幸运的话,这可能会让你的生活更轻松。两个例子:
答案是肯定的,看看这个VBA:你将能够检测到所有的文件,只打开pdf,然后得到里面的信息!