Algorithm 如何从pdf文件中获取数据

Algorithm 如何从pdf文件中获取数据,algorithm,pdf,Algorithm,Pdf,我想知道是否有任何方法可以从pdf文件中获取我们的相关数据。假设我们有这样一个名字:John,那么我们可以知道如何自动获取这个字段值,以便将其存储在预定义的数据库或文件中??谢谢。使用pdftotext从pdf文件中提取文本内容。然后用您最喜欢的编程语言解析文本文件 如果您的pdf不包含真实文本,只包含文本图像,则需要使用光学字符识别软件来提取文本 那么你要的是程序还是算法?我猜是个节目。请投我的反对票,因为您似乎没有尝试任何方法来解决您的问题。由于您没有提到特定的编程运行时,更不用说特定的PD

我想知道是否有任何方法可以从pdf文件中获取我们的相关数据。假设我们有这样一个名字:John,那么我们可以知道如何自动获取这个字段值,以便将其存储在预定义的数据库或文件中??谢谢。

使用pdftotext从pdf文件中提取文本内容。然后用您最喜欢的编程语言解析文本文件


如果您的pdf不包含真实文本,只包含文本图像,则需要使用光学字符识别软件来提取文本

那么你要的是程序还是算法?我猜是个节目。请投我的反对票,因为您似乎没有尝试任何方法来解决您的问题。由于您没有提到特定的编程运行时,更不用说特定的PDF库,我假设您希望自己编程所有内容。因此,只需参考pdf规范ISO 32000-1或ISO 32000-2以及所有相关规范并研究它们,然后开始实施。几周后,你可能会得到一个概念证明,几年后,你的实现可能会相当通用。PDF是一种布局语言,旨在定位要打印的元素,而不希望必须对其进行编辑。没有类似HTML的设置意义上的DOM。