Python Scrapy忽略允许的\u域?
Scrapy无视我的蜘蛛规则,甚至遵循不允许的域Python Scrapy忽略允许的\u域?,python,hyperlink,scrapy,Python,Hyperlink,Scrapy,Scrapy无视我的蜘蛛规则,甚至遵循不允许的域 self.start_urls = [ 'http://www.domain.de' ] self.allowed_domains = [ 'domain.de' ] 但有些情况下,它运行良好,可以过滤不允许的域,请参阅日志: 调试:筛选到“www.clubsoundz.fm”的场外请求:http://www.clubsoundz.fm/> 我使用sgmllinkextractor来跟踪链接,这里是我的“规则”: 规则=( 规则(SgmlLin
self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]
但有些情况下,它运行良好,可以过滤不允许的域,请参阅日志:
调试:筛选到“www.clubsoundz.fm”的场外请求:http://www.clubsoundz.fm/>
我使用sgmllinkextractor来跟踪链接,这里是我的“规则”:
规则=(
规则(SgmlLinkExtractor(),callback='get\u domain\u data',follow=True),
)
有人能帮忙吗 我想这正是我面临的问题: 听起来这个问题没有真正的解决方案:( 我想我必须先过滤URL,然后蜘蛛才能继续这个过程