Python 使用scrapy爬行时处理pdf文档

Python 使用scrapy爬行时处理pdf文档,python,python-2.7,pdf,web-scraping,scrapy,Python,Python 2.7,Pdf,Web Scraping,Scrapy,我想解析在使用scrapy抓取站点时遇到的PDF文档。我正在使用下面的代码从PDF文档中提取HTML页面源代码,但它不起作用 a = response.xpath("//html").extract() 如何从PDF文档中获取内容并将其合并到scrapy工作流中 Scrapy可能不是解析pdf文档的最佳工具。但您可以在爬行时识别此类链接,并添加处理此类文档的功能。解决方案是使用parse函数来处理此类情况,并在遇到pdf页面时调用它 正如@Morad Edwar所指出的,您可以使用如下库 等等

我想解析在使用scrapy抓取站点时遇到的PDF文档。我正在使用下面的代码从PDF文档中提取HTML页面源代码,但它不起作用

a = response.xpath("//html").extract()

如何从PDF文档中获取内容并将其合并到scrapy工作流中

Scrapy可能不是解析pdf文档的最佳工具。但您可以在爬行时识别此类链接,并添加处理此类文档的功能。解决方案是使用parse函数来处理此类情况,并在遇到pdf页面时调用它

正如@Morad Edwar所指出的,您可以使用如下库 等等


您可以使用这些库提取数据,并像通常使用scrapy一样将数据放入项目管道。

这不是很清楚。你能展示你到目前为止所做的代码吗?所以你用scrapy来阅读pdf作为html??pdf链接?你是说在浏览器中打开PDF文件时?这根本不是一个HTML页面,这是您的浏览器呈现PDF文件并向您显示其内容,您不能丢弃它的数据。您可以使用Python LIB从PDF文件中提取数据。我可以使用pdfquery和PDFMiner提取文本数据,但如何将该PDF页面提取为HTML源。将PDF提取为HTML?是否要使用XPath提取数据?是的,我要将PDF提取为HTML。如果完成了,我可以使用xpath来提取数据。在pdfquery和PDFMiner中,您可以使用xpath。