如何从PDF中获取信息?

如何从PDF中获取信息?,pdf,web-scraping,Pdf,Web Scraping,我正在使用Mozenda(Mozenda.com)获取一个在线数据库,但其中一些数据是PDF文件。Mozenda似乎不支持删除这些文件,所以我正在寻找另一种解决方案 有两个问题 从数据库中选择URL的合适XPath语法是什么 链接目前还不清楚如何使用Mozenda和PDF URL实现这一点 是实施第三方解决方案所必需的 什么是将大量PDF在线转换为PDF的好工具 html,或者更好的方法是将其删除 任何有益的建议都将不胜感激。我很高兴澄清一下……请提问。使用mozenda本身,您可以创建xpat

我正在使用Mozenda(Mozenda.com)获取一个在线数据库,但其中一些数据是PDF文件。Mozenda似乎不支持删除这些文件,所以我正在寻找另一种解决方案

有两个问题

  • 从数据库中选择URL的合适XPath语法是什么 链接目前还不清楚如何使用Mozenda和PDF URL实现这一点 是实施第三方解决方案所必需的

  • 什么是将大量PDF在线转换为PDF的好工具 html,或者更好的方法是将其删除


  • 任何有益的建议都将不胜感激。我很高兴澄清一下……请提问。

    使用mozenda本身,您可以创建xpath。创建任何操作>优化操作>放置。在Xpath中,从CaptureDefinition中获取您想要的任何数据

    使用mozenda本身可以创建xpath。创建任何操作>优化操作>放置。在Xpath中,从CaptureDefinition中获取您想要的任何数据

    我知道这是一个迟来的答案,但Mozenda增加了将PDF转换为HTML并从中提取的功能。这很容易


    我知道这是一个迟来的答案,但Mozenda增加了将PDF转换为HTML并从中提取的功能。这很容易