无法从上到下选择PDF

无法从上到下选择PDF,pdf,pdftotext,Pdf,Pdftotext,我正在使用pdftotext从pdf中提取信息。当前正在使用-raw选项。我确实对我正在使用的PDF有一些问题。如果我从上到下选择文本,它将按以下方式进行选择 PDF内容: A B C 它先选择A,然后选择C,然后选择B。因此,当我提取文本时,它以相同的方式呈现。有没有办法重新格式化PDF,以便我可以从上到下选择内容 注意:我知道如果我省略了“raw”选项,布局将被保留,但是当文档包含表格时,它似乎有问题,所以raw对我来说更好。是的,您可以重新格式化PDF,以便从上到下返回内容。这不是使用Ad

我正在使用pdftotext从pdf中提取信息。当前正在使用-raw选项。我确实对我正在使用的PDF有一些问题。如果我从上到下选择文本,它将按以下方式进行选择

PDF内容:

A

B

C

它先选择A,然后选择C,然后选择B。因此,当我提取文本时,它以相同的方式呈现。有没有办法重新格式化PDF,以便我可以从上到下选择内容


注意:我知道如果我省略了“raw”选项,布局将被保留,但是当文档包含表格时,它似乎有问题,所以raw对我来说更好。

是的,您可以重新格式化PDF,以便从上到下返回内容。这不是使用AdobeAcrobat或我所知道的任何其他查看器都可以轻松完成的事情,原因如下

从pdftotext的文档中,-raw选项定义为

保持文本在内容流中的顺序。这是一种经常“撤销”列格式等的黑客行为。不再建议使用原始模式

“内容流顺序”是描述中的重要部分

在PDF中,页面上的内容不必按照呈现页面时人类读取内容的顺序写入内容流(被解释为显示页面的指令)。PDF的内部并不关心顺序,它们被设计用于在各种平台上重现相同的文档可视化。因为对PDF来说,最重要的是可视化,所以编写PDF的应用程序或库往往不会以任何有意义的方式对内容流进行排序

因此,您可以对内容流中的指令进行重新排序,使其符合人类阅读指令的顺序。手动操作并非易事,使用理解PDF的库来操作内容流将是一种方法。另一种方法是寻找一种更高级的工具来从PDF中提取文本(有许多工具可以查看内容在页面上的位置,而不仅仅是它在内容流中出现的位置)


我不知道有什么东西会根据内容在页面上的自动显示位置对PDF中的内容流进行重新排序。

您知道有什么特定的工具可以根据内容位置提取PDF文本吗?有很多工具可以做到这一点,甚至可能有一些免费的工具。这取决于您正在寻找的工具类型以及它如何适合您正在进行的更大项目。我在一家公司工作,该公司为开发人员制作PDF库,以集成到他们的应用程序中,我们的库提供了基于位置提取文本的能力。不过,关注这个话题的公司还有一些更高级的,Abbyy()可能是一个很好的起点。