Excel 提取PDF文档的特定部分

Excel 提取PDF文档的特定部分,excel,pdf,converter,Excel,Pdf,Converter,我有多(30)个PDF文件,每个文件包含48-96页。所有页面的布局都是相同的,只有其他内容(数字、图形) 背景:这些页面是光纤电缆测量的PDF报告,我必须按照电缆的衰减对它们进行排序。由于机密问题,我很遗憾不能给出一个示例文件 为了验证这些报告,我们正在做一些控制样本,这就是为什么我需要对报告进行排序。现在的问题是:如何将所有pdf文件中所有页面的特定部分导出为某种可以排序的格式 如前所述,值在页面上的位置非常具体。它也是已经“解析”的内容,因此它在PDF文件中“作为文本”可用,因此它不需要扫

我有多(30)个PDF文件,每个文件包含48-96页。所有页面的布局都是相同的,只有其他内容(数字、图形)

背景:这些页面是光纤电缆测量的PDF报告,我必须按照电缆的衰减对它们进行排序。由于机密问题,我很遗憾不能给出一个示例文件

为了验证这些报告,我们正在做一些控制样本,这就是为什么我需要对报告进行排序。现在的问题是:如何将所有pdf文件中所有页面的特定部分导出为某种可以排序的格式

如前所述,值在页面上的位置非常具体。它也是已经“解析”的内容,因此它在PDF文件中“作为文本”可用,因此它不需要扫描,也不需要OCR


感谢您的帮助。我目前不知道如何解决这个问题,可能是某种工具做了类似的事情,也可能是一种编程方法来解决这个问题。

正如您在对原始问题的评论中所指出的,您准备编写一个解决方案。我建议使用Java和PDF库。它使您能够从文档中提取文本,只要文本实际上是可提取的(您实际上可以将字形放入PDF,但可以删除从字形到字符的映射)

您可以在的中找到使用iText提取PDF文本的示例代码。特别是对你的案子感兴趣


基本上,您只需获取该示例并对其进行概括即可从页面上的多个区域提取文本。

可以肯定的是,所有pdf文件中所有页面的特定部分在所有这些文件中都位于相同的坐标处?由于excel文件中已有可用的“文本”数据,您不再需要从PDF中导出数据,是吗?啊,对不起。它在PDF文件中以文本形式提供,修复了该打字错误。谢谢是的,这些特定的文本片段总是位于每一页的相同坐标上。你在寻找什么样的解决方案?你准备好做一些编程了吗?如果是,请选择哪种语言/环境?如果您使用Java或.Net,您可以使用例如iText(Sharp)的解析器包功能来实现该任务(但也有其他好的库)。嗯,我想我应该在这个问题上提供更多信息。我不知道解决方案会是什么样子。也许Adobe Acrobat可以做到这一点(我不知道),或者其他任何工具。它也可以是一个编程解决方案,在那里我更喜欢php、perl或java。我没有真正的想法,希望得到一些意见…谢谢你的回答。我现在已经编写了一个小型java应用程序,它可以获取一个或多个PDF页面,解析一组矩形上给出的结果,并以多种方式导出结果(当前为控制台、文本和csv)。我有一个问题:目前我只是放置了随机矩形,用于测试目的。如何提取给定PDF文件中文本区域的x/y坐标?在后面的步骤中,将出现一个小型GUI,其中将显示一个小型预览,允许简单地“绘制”矩形。。。但是对于这个任务,我需要在周一之前完成,我必须手动完成。好的,我自己发现的。使用,我可以打开一个PDF文件并获取文本元素的位置。通常,您可以检索文件的mediabox,该文件定义了可见页面区域的坐标。