Regex SgmlLinkExtractor中的爬行蜘蛛拒绝路径似乎不起作用

Regex SgmlLinkExtractor中的爬行蜘蛛拒绝路径似乎不起作用,regex,scrapy,Regex,Scrapy,我使用以下规则 Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains), callback='save_page', follow=True) 其中路径_deny_base为: path_deny_base = [ #'\?(.{80,200})', '/whois/', '/edit', '/login/', '/calendar/',

我使用以下规则

   Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True)
其中路径_deny_base为:

path_deny_base = [
    #'\?(.{80,200})',
    '/whois/',
    '/edit',
    '/login/',
    '/calendar/',
    '.*\?.*',
    '\?',
    '/search/',
    '/suche/',

]
在这次运行中,我想用query?跳过路径?。。。还有一些其他的,我看到页面上有URL,比如

http://example.com/login/?_cookie_set=yes....
已下载


有什么提示吗?嗯,是的,我可以试试外壳,现在就可以…

我检查了外壳中的图案,它们很好,与URL匹配。您还有其他规则吗?如果您有其他规则,您必须在其他规则中使用相同的拒绝,否则它们在您的其他规则中不会被忽略。