如何从PDF中获取信息？_Pdf_Web Scraping

如何从PDF中获取信息？

pdf web-scraping

如何从PDF中获取信息？,pdf,web-scraping,Pdf,Web Scraping,我正在使用Mozenda（Mozenda.com）获取一个在线数据库，但其中一些数据是PDF文件。Mozenda似乎不支持删除这些文件，所以我正在寻找另一种解决方案有两个问题从数据库中选择URL的合适XPath语法是什么链接目前还不清楚如何使用Mozenda和PDF URL实现这一点是实施第三方解决方案所必需的什么是将大量PDF在线转换为PDF的好工具 html，或者更好的方法是将其删除任何有益的建议都将不胜感激。我很高兴澄清一下……请提问。使用mozenda本身，您可以创建xpat

我正在使用Mozenda（Mozenda.com）获取一个在线数据库，但其中一些数据是PDF文件。Mozenda似乎不支持删除这些文件，所以我正在寻找另一种解决方案

有两个问题

从数据库中选择URL的合适XPath语法是什么链接目前还不清楚如何使用Mozenda和PDF URL实现这一点是实施第三方解决方案所必需的

什么是将大量PDF在线转换为PDF的好工具 html，或者更好的方法是将其删除

任何有益的建议都将不胜感激。我很高兴澄清一下……请提问。

使用mozenda本身，您可以创建xpath。创建任何操作>优化操作>放置。在Xpath中，从CaptureDefinition中获取您想要的任何数据

使用mozenda本身可以创建xpath。创建任何操作>优化操作>放置。在Xpath中，从CaptureDefinition中获取您想要的任何数据

我知道这是一个迟来的答案，但Mozenda增加了将PDF转换为HTML并从中提取的功能。这很容易