Python 如何爬网重定向到的站点/&引用；_Python_Redirect_Web Scraping_Scrapy_Web Crawler

Python 如何爬网重定向到的站点/&引用；

python redirect web-scraping scrapy web-crawler

Python 如何爬网重定向到的站点/&引用；,python,redirect,web-scraping,scrapy,web-crawler,Python,Redirect,Web Scraping,Scrapy,Web Crawler,我正在使用scrapy爬网几个网站。我的蜘蛛不允许跨域跳转。在这种情况下，重定向会使爬虫程序立即停止。在大多数情况下，我知道如何处理它，但这是一个奇怪的罪魁祸首是: 我用检查了它的重定向模式，它告诉我它重定向到“/”。这将防止爬行器进入其解析功能。我该怎么办编辑：密码我在这里使用scrapy提供的API调用spider：唯一的区别是我的蜘蛛是习惯性的。其创建方式如下： spider = DomainSimpleSpider( start_urls = [start_url],

我正在使用scrapy爬网几个网站。我的蜘蛛不允许跨域跳转。在这种情况下，重定向会使爬虫程序立即停止。在大多数情况下，我知道如何处理它，但这是一个奇怪的

罪魁祸首是:

我用检查了它的重定向模式，它告诉我它重定向到“/”。这将防止爬行器进入其

解析

功能。我该怎么办

编辑：密码

我在这里使用scrapy提供的API调用spider：唯一的区别是我的蜘蛛是习惯性的。其创建方式如下：

spider = DomainSimpleSpider(
   start_urls = [start_url],
   allowed_domains = [allowed_domain],
   url_id = url_id,
   cur_state = cur_state,
   state_id_url_map = id_url,
   allow = re.compile(r".*%s.*" % re.escape(allowed_path), re.IGNORECASE),
   tags = ('a', 'area', 'frame'),
   attrs = ('href', 'src'),
   response_type_whitelist = [r"text/html", r"application/xhtml+xml", r"application/xml"],
   state_abbr = state_abbrs[cur_state]
)

我认为问题在于

允许的\u域

发现

不在列表中（仅包含

cantonsd.org

），并关闭了所有内容

我没有报告完整的爬行器代码，因为它根本没有被调用，所以这不会是问题。

您有权限删除它们吗？因为你似乎是这里的罪魁祸首。显示你目前拥有的代码。@TymoteuszPaul如果我没有权限，他们会在robots.txt中指定它，我尊重它。他们指定他们不希望每秒超过一个请求，事实上我每两秒钟就提出一个请求。@TymoteuszPaul我理解逻辑，但我有两个反对意见。首先，他们没有对我大喊大叫。这是一个技术问题，而不是道德问题。其次，按照这个逻辑，搜索引擎不可能存在。你认为谷歌或雅虎对每个网站都要求明确的许可吗？那个网站上的数据不属于他们…这只是一个畸形的网站。302状态代码和

Location://

标题看起来完全是假的，因为它们毕竟为您提供了实际的页面内容。我只想把它作为众多网站中的一个，它们以不需要解决的方式破坏了自己。