Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中？_Python_Vba_Excel_Pdf

Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中？

python vba excel pdf

Python 有没有办法从大量pdf文件中自动提取特定数据并将其添加到excel工作表中？,python,vba,excel,pdf,Python,Vba,Excel,Pdf,我必须定期查看pdf文件列表，搜索特定数据，并将其添加到excel表格中，以备日后查看。由于每月pdf文件的数量约为50个，手动操作既耗时又令人沮丧这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗？我需要有一个文件夹中的所有pdf文件，并运行脚本，这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的，并且具有类似的结构您可以使用Python从PDF中提取数据或者，您可以使用属于是的一部分的pdftotext。不，也许吧这里的问题不是从PDF文

我必须定期查看pdf文件列表，搜索特定数据，并将其添加到excel表格中，以备日后查看。由于每月pdf文件的数量约为50个，手动操作既耗时又令人沮丧

这个过程可以在windows中通过python或任何其他脚本语言实现自动化吗？我需要有一个文件夹中的所有pdf文件，并运行脚本，这将生成一个excel表与所有数据添加。我使用的pdf文件是表格格式的，并且具有类似的结构

您可以使用Python从PDF中提取数据

或者，您可以使用属于

是的一部分的

pdftotext

。不，也许吧

这里的问题不是从PDF文档中提取内容。提取内容几乎总是可能的，而且有很多工具可用于从PDF文档中提取内容。文本，图像，任何你需要的

主要问题（以及“否”或“可能”的原因）是PDF通常不是结构化文件格式。它不关心列、段落、表格、句子甚至单词。在一般情况下，它只关心页面上特定位置的字符

这意味着，在一般情况下，您不能查询PDF文档并要求它查找每一段或第五段中的第三句话。您可以要求库获取所有文本或特定位置的所有文本。然后你必须希望图书馆能够以清晰的格式提取你需要的文本。因为你甚至不必从PDF文件中复制、粘贴或其他额外的可理解字符。许多PDF文件甚至没有包含足够的信息

所以。。。如果您有一个特定类型的文档，并且可以使用特定的提取引擎测试它的行为是否可以预测，那么可以从PDF文件中提取信息

如果您收到的PDF文件一直不同，或者页面上的布局每次都完全不同，那么答案可能是您无法可靠地提取所需的信息

作为旁注：
有一些特定类型的PDF文档比其他文档更容易处理，所以如果你幸运的话，这可能会让你的生活更轻松。两个例子：

事实上，许多PDF文件包含文本信息，因此可以以清晰的方式提取文本信息。甚至需要以这种方式创建符合某些标准（如PDF/A-1a、PDF/A-2a或PDF/A-2u等）的PDF文件

一些PDF文件被“标记”，这意味着它们包含额外的结构信息，允许您以更简单、更有意义的方式提取信息。这种结构实际上可以识别段落、图像、表格等，如果标签做得好，可以使内容提取工作更容易

答案是肯定的，看看这个VBA：你将能够检测到所有的文件，只打开pdf，然后得到里面的信息！