Python 使用scrapy爬行时处理pdf文档_Python_Python 2.7_Pdf_Web Scraping_Scrapy

Python 使用scrapy爬行时处理pdf文档

python python-2.7 pdf web-scraping scrapy

Python 使用scrapy爬行时处理pdf文档,python,python-2.7,pdf,web-scraping,scrapy,Python,Python 2.7,Pdf,Web Scraping,Scrapy,我想解析在使用scrapy抓取站点时遇到的PDF文档。我正在使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用 a = response.xpath("//html").extract() 如何从PDF文档中获取内容并将其合并到scrapy工作流中 Scrapy可能不是解析pdf文档的最佳工具。但您可以在爬行时识别此类链接，并添加处理此类文档的功能。解决方案是使用parse函数来处理此类情况，并在遇到pdf页面时调用它正如@Morad Edwar所指出的，您可以使用如下库等等

我想解析在使用scrapy抓取站点时遇到的PDF文档。我正在使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用

a = response.xpath("//html").extract()

如何从PDF文档中获取内容并将其合并到scrapy工作流中

Scrapy可能不是解析pdf文档的最佳工具。但您可以在爬行时识别此类链接，并添加处理此类文档的功能。解决方案是使用parse函数来处理此类情况，并在遇到pdf页面时调用它

正如@Morad Edwar所指出的，您可以使用如下库等等

您可以使用这些库提取数据，并像通常使用scrapy一样将数据放入项目管道。

这不是很清楚。你能展示你到目前为止所做的代码吗？所以你用scrapy来阅读pdf作为html？？pdf链接？你是说在浏览器中打开PDF文件时？这根本不是一个HTML页面，这是您的浏览器呈现PDF文件并向您显示其内容，您不能丢弃它的数据。您可以使用Python LIB从PDF文件中提取数据。我可以使用pdfquery和PDFMiner提取文本数据，但如何将该PDF页面提取为HTML源。将PDF提取为HTML？是否要使用XPath提取数据？是的，我要将PDF提取为HTML。如果完成了，我可以使用xpath来提取数据。在pdfquery和PDFMiner中，您可以使用xpath。