Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/358.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy忽略允许的\u域?_Python_Hyperlink_Scrapy - Fatal编程技术网

Python Scrapy忽略允许的\u域?

Python Scrapy忽略允许的\u域?,python,hyperlink,scrapy,Python,Hyperlink,Scrapy,Scrapy无视我的蜘蛛规则,甚至遵循不允许的域 self.start_urls = [ 'http://www.domain.de' ] self.allowed_domains = [ 'domain.de' ] 但有些情况下,它运行良好,可以过滤不允许的域,请参阅日志: 调试:筛选到“www.clubsoundz.fm”的场外请求:http://www.clubsoundz.fm/> 我使用sgmllinkextractor来跟踪链接,这里是我的“规则”: 规则=( 规则(SgmlLin

Scrapy无视我的蜘蛛规则,甚至遵循不允许的域

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]
但有些情况下,它运行良好,可以过滤不允许的域,请参阅日志:

调试:筛选到“www.clubsoundz.fm”的场外请求:http://www.clubsoundz.fm/>

我使用sgmllinkextractor来跟踪链接,这里是我的“规则”:

规则=( 规则(SgmlLinkExtractor(),callback='get\u domain\u data',follow=True), )


有人能帮忙吗

我想这正是我面临的问题: 听起来这个问题没有真正的解决方案:(

我想我必须先过滤URL,然后蜘蛛才能继续这个过程