Python scrapy避免爬虫注销_Python_Scrapy

Python scrapy避免爬虫注销

python scrapy

Python scrapy避免爬虫注销,python,scrapy,Python,Scrapy,我正在使用scrapy库来帮助抓取网站该网站使用身份验证，我可以使用scrapy成功登录到该页面该页面有一个URL，它将注销用户并销毁会话如何确保scrapy在爬网时避免注销页面？如果您正在使用并且根本不想遵循此特定的“注销”链接，则可以设置拒绝属性： rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),] 另一个选项是检查spider的parse方法中的response.url： def parse(self

我正在使用scrapy库来帮助抓取网站

该网站使用身份验证，我可以使用scrapy成功登录到该页面

该页面有一个URL，它将注销用户并销毁会话

如何确保scrapy在爬网时避免注销页面？

如果您正在使用并且根本不想遵循此特定的“注销”链接，则可以设置

拒绝

属性：

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一个选项是检查spider的

parse

方法中的

response.url

：

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望有帮助