Python 如何爬网重定向到的站点/&引用;

Python 如何爬网重定向到的站点/&引用;,python,redirect,web-scraping,scrapy,web-crawler,Python,Redirect,Web Scraping,Scrapy,Web Crawler,我正在使用scrapy爬网几个网站。我的蜘蛛不允许跨域跳转。在这种情况下,重定向会使爬虫程序立即停止。在大多数情况下,我知道如何处理它,但这是一个奇怪的 罪魁祸首是: 我用检查了它的重定向模式,它告诉我它重定向到“/”。这将防止爬行器进入其解析功能。我该怎么办 编辑: 密码 我在这里使用scrapy提供的API调用spider: 唯一的区别是我的蜘蛛是习惯性的。其创建方式如下: spider = DomainSimpleSpider( start_urls = [start_url],

我正在使用scrapy爬网几个网站。我的蜘蛛不允许跨域跳转。在这种情况下,重定向会使爬虫程序立即停止。在大多数情况下,我知道如何处理它,但这是一个奇怪的

罪魁祸首是:

我用检查了它的重定向模式,它告诉我它重定向到“/”。这将防止爬行器进入其
解析
功能。我该怎么办

编辑: 密码

我在这里使用scrapy提供的API调用spider: 唯一的区别是我的蜘蛛是习惯性的。其创建方式如下:

spider = DomainSimpleSpider(
   start_urls = [start_url],
   allowed_domains = [allowed_domain],
   url_id = url_id,
   cur_state = cur_state,
   state_id_url_map = id_url,
   allow = re.compile(r".*%s.*" % re.escape(allowed_path), re.IGNORECASE),
   tags = ('a', 'area', 'frame'),
   attrs = ('href', 'src'),
   response_type_whitelist = [r"text/html", r"application/xhtml+xml", r"application/xml"],
   state_abbr = state_abbrs[cur_state]
)
我认为问题在于
允许的\u域
发现
/
不在列表中(仅包含
cantonsd.org
),并关闭了所有内容


我没有报告完整的爬行器代码,因为它根本没有被调用,所以这不会是问题。

您有权限删除它们吗?因为你似乎是这里的罪魁祸首。显示你目前拥有的代码。@TymoteuszPaul如果我没有权限,他们会在robots.txt中指定它,我尊重它。他们指定他们不希望每秒超过一个请求,事实上我每两秒钟就提出一个请求。@TymoteuszPaul我理解逻辑,但我有两个反对意见。首先,他们没有对我大喊大叫。这是一个技术问题,而不是道德问题。其次,按照这个逻辑,搜索引擎不可能存在。你认为谷歌或雅虎对每个网站都要求明确的许可吗?那个网站上的数据不属于他们…这只是一个畸形的网站。302状态代码和
Location://
标题看起来完全是假的,因为它们毕竟为您提供了实际的页面内容。我只想把它作为众多网站中的一个,它们以不需要解决的方式破坏了自己。