Forms 从许多PDF表单中提取数据

Forms 从许多PDF表单中提取数据,forms,unix,pdf,adobe,Forms,Unix,Pdf,Adobe,我经常收到大量相同的PDF表格。我想把这些数据提取到一个文本文件中。我想通过某种脚本来实现这一点。我在UNIX环境中工作 这可能吗?我用谷歌搜索了一下脑袋,什么也找不到 PDF中的文本由页面内容流中的文本元素表示。这些流通常被压缩。如果您有时间和资源,可以使用ISO 32000-1:2008或Adobe PDF 1.7规范构建您自己的PDF解析器。或者,使用第三方应用程序作为中间翻译步骤可能更为实际 有一些实用程序可以解码流并提供清晰的文本。一个选项是PDFtk服务器,它将在您的环境中工作。另一

我经常收到大量相同的PDF表格。我想把这些数据提取到一个文本文件中。我想通过某种脚本来实现这一点。我在UNIX环境中工作


这可能吗?我用谷歌搜索了一下脑袋,什么也找不到

PDF中的文本由页面内容流中的文本元素表示。这些流通常被压缩。如果您有时间和资源,可以使用ISO 32000-1:2008或Adobe PDF 1.7规范构建您自己的PDF解析器。或者,使用第三方应用程序作为中间翻译步骤可能更为实际


有一些实用程序可以解码流并提供清晰的文本。一个选项是PDFtk服务器,它将在您的环境中工作。另一种选择是使用Poppler PDF呈现库,该库有一个命令行实用程序“pdftotext”,用于搜索PDF中的字符串。

op讨论了PDF表单。PDF表单内容不是页面内容的一部分。因此,提取页面内容没有帮助。当然,假设op是指符合规范的PDF表单……遗憾的是,我没有在服务器上安装很多开源工具,也无法安装它们。我发现使用VBA和一些Acrobat库在Excel中进行此提取是非常可能的。遗憾的是,这对我的问题没有帮助,但是Excel解决方案非常简单。