Python LinkExtractor-带条件提取_Python_Css_Xpath_Scrapy_Captcha

Python LinkExtractor-带条件提取

python css xpath scrapy

Python LinkExtractor-带条件提取,python,css,xpath,scrapy,captcha,Python,Css,Xpath,Scrapy,Captcha,我有一个爬虫程序，它接收url，然后在开始url中跟踪每个url的下一页链接及其工作状态 rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="pagnNext"]',)), callback="parse_start_url", follow= True),) 然而，正如你所想象的，我开始在某个时候获得一些URL的验证码。我听说可能有一些蜜罐是人类看不见的，但是在html代码中，它可以让你点击来识别你是一个机器

我有一个爬虫程序，它接收url，然后在开始url中跟踪每个url的下一页链接及其工作状态

rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=('//a[@class="pagnNext"]',)), callback="parse_start_url", follow= True),)

然而，正如你所想象的，我开始在某个时候获得一些URL的验证码。我听说可能有一些蜜罐是人类看不见的，但是在html代码中，它可以让你点击来识别你是一个机器人

我想让提取器有条件地提取链接，例如，如果CSS样式显示：不存在或类似的东西，请不要提取并单击

这可行吗？我会这样做：

def parse_page1(self, response):
    if (response.css("thing i want to check exists"))
       return scrapy.Request(response.xpath('//a[@class="pagnNext"]'),
                             callback=self.parse_page2)

def parse_page2(self, response):
    # this would log http://www.example.com/some_page.html
    self.logger.info("Visited %s", response.url)

官方文件：

注意：对于您的验证码问题，请尝试干扰您的设置。至少确保您的下载延迟设置为0以外的值。查看其他选项

不确定你在问什么