Python Scrapy忽略允许的\u域？_Python_Hyperlink_Scrapy

Python Scrapy忽略允许的\u域？

python hyperlink scrapy

Python Scrapy忽略允许的\u域？,python,hyperlink,scrapy,Python,Hyperlink,Scrapy,Scrapy无视我的蜘蛛规则，甚至遵循不允许的域 self.start_urls = [ 'http://www.domain.de' ] self.allowed_domains = [ 'domain.de' ] 但有些情况下，它运行良好，可以过滤不允许的域，请参阅日志：调试：筛选到“www.clubsoundz.fm”的场外请求：http://www.clubsoundz.fm/> 我使用sgmllinkextractor来跟踪链接，这里是我的“规则”：规则=( 规则（SgmlLin

Scrapy无视我的蜘蛛规则，甚至遵循不允许的域

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但有些情况下，它运行良好，可以过滤不允许的域，请参阅日志：

调试：筛选到“www.clubsoundz.fm”的场外请求：http://www.clubsoundz.fm/>

我使用sgmllinkextractor来跟踪链接，这里是我的“规则”：

规则=( 规则（SgmlLinkExtractor（），callback='get\u domain\u data'，follow=True）， )

有人能帮忙吗

我想这正是我面临的问题：听起来这个问题没有真正的解决方案：(

我想我必须先过滤URL，然后蜘蛛才能继续这个过程