Python Scrapy::如何获取异常请求以导出到.csv?
我对使用Scrapy相当陌生,并且已经编写了大约2年了(如果这是一个愚蠢的问题,很抱歉) 我目前正试图搜集一般信息,比如网站列表上是否有“隐私政策”链接或“关于我们”链接。我已经能够在有支持HTTPS的URL或有实时链接的网站上抓取信息 对于未加载或存在HTTPS与HTTP问题的网站,我遇到了一些例外情况:Python Scrapy::如何获取异常请求以导出到.csv?,python,scrapy,Python,Scrapy,我对使用Scrapy相当陌生,并且已经编写了大约2年了(如果这是一个愚蠢的问题,很抱歉) 我目前正试图搜集一般信息,比如网站列表上是否有“隐私政策”链接或“关于我们”链接。我已经能够在有支持HTTPS的URL或有实时链接的网站上抓取信息 对于未加载或存在HTTPS与HTTP问题的网站,我遇到了一些例外情况: twisted.web.\u newclient.ResponseNeverReceived:[] twisted.web.\u newclient.ResponseNeverReceiv
twisted.web.\u newclient.ResponseNeverReceived:[]
twisted.web.\u newclient.ResponseNeverReceived:[]
我想知道如果可能的话,如何让爬行器包含这些失败的链接以及每个列的预设参数。在
请求
函数中,除了回调
之外,还有errback
(文档是)
您可以编写函数来处理生成错误的请求
所以您使用:yield请求(url=)http://www.example.com“,callback=self.mycallback,errback=self.myerrback)
并定义:
def myerrback(self, failure):
# your processing here
检查使用情况