Python scrapy允许所有域
我看到了一篇文章,在没有允许的域名限制的情况下对任何网站进行抓取 有没有更好的方法,比如在允许的域变量中使用正则表达式,比如-Python scrapy允许所有域,python,scrapy,Python,Scrapy,我看到了一篇文章,在没有允许的域名限制的情况下对任何网站进行抓取 有没有更好的方法,比如在允许的域变量中使用正则表达式,比如- allowed_domains = ["*"] 我希望除了侵入scrapy框架之外,还有其他方法可以做到这一点。根本不要设置允许的\u域 请查看此文件中的get_host_regex()函数: 您应该激活offsite middlware,它是scrapy中内置的spider中间件。 有关详细信息谢谢。但是,我想将allowed_domains设置为all,这可能吗?
allowed_domains = ["*"]
我希望除了侵入scrapy框架之外,还有其他方法可以做到这一点。根本不要设置允许的\u域 请查看此文件中的get_host_regex()函数:
您应该激活offsite middlware,它是scrapy中内置的spider中间件。
有关详细信息谢谢。但是,我想将allowed_domains设置为all,这可能吗?如果不设置allowed_domains,则默认情况下允许所有域。我有一个扩展scrapy spider的类,然后是另一个描述该类的类。所以我允许在这个中间类中使用域,但是想从最后一个类中删除它们