Regex SgmlLinkExtractor中的爬行蜘蛛拒绝路径似乎不起作用_Regex_Scrapy

Regex SgmlLinkExtractor中的爬行蜘蛛拒绝路径似乎不起作用

regex scrapy

Regex SgmlLinkExtractor中的爬行蜘蛛拒绝路径似乎不起作用,regex,scrapy,Regex,Scrapy,我使用以下规则 Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains), callback='save_page', follow=True) 其中路径_deny_base为： path_deny_base = [ #'\?(.{80,200})', '/whois/', '/edit', '/login/', '/calendar/',

我使用以下规则

   Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True)

其中路径_deny_base为：

path_deny_base = [
    #'\?(.{80,200})',
    '/whois/',
    '/edit',
    '/login/',
    '/calendar/',
    '.*\?.*',
    '\?',
    '/search/',
    '/suche/',

]

在这次运行中，我想用query？跳过路径？。。。还有一些其他的，我看到页面上有URL，比如

http://example.com/login/?_cookie_set=yes....

已下载

有什么提示吗？嗯，是的，我可以试试外壳，现在就可以…

我检查了外壳中的图案，它们很好，与URL匹配。您还有其他规则吗？如果您有其他规则，您必须在其他规则中使用相同的拒绝，否则它们在您的其他规则中不会被忽略。