Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python scrapy避免爬虫注销_Python_Scrapy - Fatal编程技术网

Python scrapy避免爬虫注销

Python scrapy避免爬虫注销,python,scrapy,Python,Scrapy,我正在使用scrapy库来帮助抓取网站 该网站使用身份验证,我可以使用scrapy成功登录到该页面 该页面有一个URL,它将注销用户并销毁会话 如何确保scrapy在爬网时避免注销页面?如果您正在使用并且根本不想遵循此特定的“注销”链接,则可以设置拒绝属性: rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),] 另一个选项是检查spider的parse方法中的response.url: def parse(self

我正在使用scrapy库来帮助抓取网站

该网站使用身份验证,我可以使用scrapy成功登录到该页面

该页面有一个URL,它将注销用户并销毁会话

如何确保scrapy在爬网时避免注销页面?

如果您正在使用并且根本不想遵循此特定的“注销”链接,则可以设置
拒绝
属性:

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
另一个选项是检查spider的
parse
方法中的
response.url

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items
希望有帮助