Python scrapy避免爬虫注销
我正在使用scrapy库来帮助抓取网站 该网站使用身份验证,我可以使用scrapy成功登录到该页面 该页面有一个URL,它将注销用户并销毁会话 如何确保scrapy在爬网时避免注销页面?如果您正在使用并且根本不想遵循此特定的“注销”链接,则可以设置Python scrapy避免爬虫注销,python,scrapy,Python,Scrapy,我正在使用scrapy库来帮助抓取网站 该网站使用身份验证,我可以使用scrapy成功登录到该页面 该页面有一个URL,它将注销用户并销毁会话 如何确保scrapy在爬网时避免注销页面?如果您正在使用并且根本不想遵循此特定的“注销”链接,则可以设置拒绝属性: rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),] 另一个选项是检查spider的parse方法中的response.url: def parse(self
拒绝
属性:
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
另一个选项是检查spider的parse
方法中的response.url
:
def parse(self, response):
if 'logout' in response.url:
return
# extract items
希望有帮助