Redirect 刮削时,Scrapy出现400错误https://www.watsons.com.sg/

Redirect 刮削时,Scrapy出现400错误https://www.watsons.com.sg/,redirect,get,scrapy,Redirect,Get,Scrapy,我正在尝试刮取此网页:“但刮取总是导致400错误。”。在此附上刮擦运行日志作为参考: ['diffmarts.pipelines.DiffmartsPipeline'] 2019-01-01 21:17:14 [scrapy.core.engine] INFO: Spider opened 2019-01-01 21:17:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 i

我正在尝试刮取此网页:“但刮取总是导致400错误。”。在此附上刮擦运行日志作为参考:

['diffmarts.pipelines.DiffmartsPipeline']  
2019-01-01 21:17:14 [scrapy.core.engine] INFO: Spider opened  
2019-01-01 21:17:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)  
2019-01-01 21:17:15 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <400 https://queue.watsons.com.sg/?c=aswatson&e=watsonprdsg&ver=v3-java-3.5.2&cver=62&cid=zh-CN&l=PoC+Layout+SG&t=https%3A%2F%2Fwww.watsons.com.sg%2F>: HTTP status code is not handled or not allowed
2019-01-01 21:17:15 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-01 21:17:17 [scrapy.core.engine] ERROR: Scraper close failure
['diffmarts.pipelines.DiffmartsPipeline']
2019-01-01 21:17:14[刮屑芯发动机]信息:十字轴已打开
2019-01-01 21:17:14[scrapy.extensions.logstats]信息:爬网0页(0页/分钟),爬网0项(0项/分钟)
2019-01-01 21:17:15[scrapy.spidermiddleware.httperror]信息:忽略响应:HTTP状态代码未处理或不允许
2019-01-01 21:17:15[刮屑芯发动机]信息:关闭卡盘(已完成)
2019-01-01 21:17:17[刮板堆芯发动机]错误:刮板关闭故障

我试过在chrome和post中检查源代码,内容可以通过简单的“get”检索回来。因此,网站上不应该有任何保护。不知道怎么了。如果有人能提供建议或帮助,我们将不胜感激。谢谢。

允许在爬行器中重定向。网站被重定向到某个页面,然后从该页面重定向回主页。

您的爬虫程序被阻止。您很可能缺少某些标头,或者让用户代理标头将您标识为机器人。你能发布你的spider代码和
settings.py
吗?访问
网络呼叫
在那里我找到了一个呼叫
https://in.hotjar.com/api/v1/client/sites/277609/visit-data?sv=5
这可能会有帮助。我终于意识到我们需要将重定向的url硬编码为起始url。这样就不会出现导致400错误的“/”缺失。感谢所有的帮助和评论