Redirect 刮削时，Scrapy出现400错误https://www.watsons.com.sg/_Redirect_Get_Scrapy

Redirect 刮削时，Scrapy出现400错误https://www.watsons.com.sg/

redirect scrapy

Redirect 刮削时，Scrapy出现400错误https://www.watsons.com.sg/,redirect,get,scrapy,Redirect,Get,Scrapy,我正在尝试刮取此网页：“但刮取总是导致400错误。”。在此附上刮擦运行日志作为参考： ['diffmarts.pipelines.DiffmartsPipeline'] 2019-01-01 21:17:14 [scrapy.core.engine] INFO: Spider opened 2019-01-01 21:17:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 i

我正在尝试刮取此网页：“但刮取总是导致400错误。”。在此附上刮擦运行日志作为参考：

['diffmarts.pipelines.DiffmartsPipeline']  
2019-01-01 21:17:14 [scrapy.core.engine] INFO: Spider opened  
2019-01-01 21:17:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)  
2019-01-01 21:17:15 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <400 https://queue.watsons.com.sg/?c=aswatson&e=watsonprdsg&ver=v3-java-3.5.2&cver=62&cid=zh-CN&l=PoC+Layout+SG&t=https%3A%2F%2Fwww.watsons.com.sg%2F>: HTTP status code is not handled or not allowed
2019-01-01 21:17:15 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-01 21:17:17 [scrapy.core.engine] ERROR: Scraper close failure

['diffmarts.pipelines.DiffmartsPipeline']
2019-01-01 21:17:14[刮屑芯发动机]信息：十字轴已打开
2019-01-01 21:17:14[scrapy.extensions.logstats]信息：爬网0页（0页/分钟），爬网0项（0项/分钟）
2019-01-01 21:17:15[scrapy.spidermiddleware.httperror]信息：忽略响应：HTTP状态代码未处理或不允许
2019-01-01 21:17:15[刮屑芯发动机]信息：关闭卡盘（已完成）
2019-01-01 21:17:17[刮板堆芯发动机]错误：刮板关闭故障

我试过在chrome和post中检查源代码，内容可以通过简单的“get”检索回来。因此，网站上不应该有任何保护。不知道怎么了。如果有人能提供建议或帮助，我们将不胜感激。谢谢。

允许在爬行器中重定向。网站被重定向到某个页面，然后从该页面重定向回主页。

您的爬虫程序被阻止。您很可能缺少某些标头，或者让用户代理标头将您标识为机器人。你能发布你的spider代码和

settings.py

吗？访问

网络呼叫

在那里我找到了一个呼叫

https://in.hotjar.com/api/v1/client/sites/277609/visit-data?sv=5

这可能会有帮助。我终于意识到我们需要将重定向的url硬编码为起始url。这样就不会出现导致400错误的“/”缺失。感谢所有的帮助和评论