Forms 从许多PDF表单中提取数据_Forms_Unix_Pdf_Adobe

Forms 从许多PDF表单中提取数据

forms unix pdf adobe

Forms 从许多PDF表单中提取数据,forms,unix,pdf,adobe,Forms,Unix,Pdf,Adobe,我经常收到大量相同的PDF表格。我想把这些数据提取到一个文本文件中。我想通过某种脚本来实现这一点。我在UNIX环境中工作这可能吗？我用谷歌搜索了一下脑袋，什么也找不到 PDF中的文本由页面内容流中的文本元素表示。这些流通常被压缩。如果您有时间和资源，可以使用ISO 32000-1:2008或Adobe PDF 1.7规范构建您自己的PDF解析器。或者，使用第三方应用程序作为中间翻译步骤可能更为实际有一些实用程序可以解码流并提供清晰的文本。一个选项是PDFtk服务器，它将在您的环境中工作。另一

我经常收到大量相同的PDF表格。我想把这些数据提取到一个文本文件中。我想通过某种脚本来实现这一点。我在UNIX环境中工作

这可能吗？我用谷歌搜索了一下脑袋，什么也找不到

PDF中的文本由页面内容流中的文本元素表示。这些流通常被压缩。如果您有时间和资源，可以使用ISO 32000-1:2008或Adobe PDF 1.7规范构建您自己的PDF解析器。或者，使用第三方应用程序作为中间翻译步骤可能更为实际

有一些实用程序可以解码流并提供清晰的文本。一个选项是PDFtk服务器，它将在您的环境中工作。另一种选择是使用Poppler PDF呈现库，该库有一个命令行实用程序“pdftotext”，用于搜索PDF中的字符串。

op讨论了PDF表单。PDF表单内容不是页面内容的一部分。因此，提取页面内容没有帮助。当然，假设op是指符合规范的PDF表单……遗憾的是，我没有在服务器上安装很多开源工具，也无法安装它们。我发现使用VBA和一些Acrobat库在Excel中进行此提取是非常可能的。遗憾的是，这对我的问题没有帮助，但是Excel解决方案非常简单。