Python LinkExtractor-带条件提取

Python LinkExtractor-带条件提取,python,css,xpath,scrapy,captcha,Python,Css,Xpath,Scrapy,Captcha,我有一个爬虫程序,它接收url,然后在开始url中跟踪每个url的下一页链接及其工作状态 rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="pagnNext"]',)), callback="parse_start_url", follow= True),) 然而,正如你所想象的,我开始在某个时候获得一些URL的验证码。我听说可能有一些蜜罐是人类看不见的,但是在html代码中,它可以让你点击来识别你是一个机器

我有一个爬虫程序,它接收url,然后在开始url中跟踪每个url的下一页链接及其工作状态

rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="pagnNext"]',)), callback="parse_start_url", follow= True),)
然而,正如你所想象的,我开始在某个时候获得一些URL的验证码。我听说可能有一些蜜罐是人类看不见的,但是在html代码中,它可以让你点击来识别你是一个机器人

我想让提取器有条件地提取链接,例如,如果CSS样式显示:不存在或类似的东西,请不要提取并单击


这可行吗?我会这样做:

def parse_page1(self, response):
    if (response.css("thing i want to check exists"))
       return scrapy.Request(response.xpath('//a[@class="pagnNext"]'),
                             callback=self.parse_page2)

def parse_page2(self, response):
    # this would log http://www.example.com/some_page.html
    self.logger.info("Visited %s", response.url)
官方文件:


注意:对于您的验证码问题,请尝试干扰您的设置。至少确保您的下载延迟设置为0以外的值。查看其他选项

不确定你在问什么