Scrapy 刮擦过滤器相同的URL在“中不同”;http「;及;https";

Scrapy 刮擦过滤器相同的URL在“中不同”;http「;及;https";,scrapy,Scrapy,我注意到scrapy将抓取两个仅在方案上不同的页面,例如“和”,这实际上会使我的请求增加一倍。有什么方法可以过滤其中的一半吗 没有通用的方法。根据您的具体情况,可能会采用不同的解决方案,也可能没有好的解决方案 如果问题出在某个特定的域上,您可以编写spider,以便它在生成新请求时使用正确的协议 如果是针对任意数量的域的广泛爬网,可能有点棘手。大多数域将HTTP重定向到HTTPS,但一些域将HTTPS流量重定向到HTTP 在后一种情况下,如果问题是在HTTPS页面上获得HTTP链接,然后重定向回

我注意到scrapy将抓取两个仅在方案上不同的页面,例如“和”,这实际上会使我的请求增加一倍。有什么方法可以过滤其中的一半吗

没有通用的方法。根据您的具体情况,可能会采用不同的解决方案,也可能没有好的解决方案

如果问题出在某个特定的域上,您可以编写spider,以便它在生成新请求时使用正确的协议

如果是针对任意数量的域的广泛爬网,可能有点棘手。大多数域将HTTP重定向到HTTPS,但一些域将HTTPS流量重定向到HTTP

在后一种情况下,如果问题是在HTTPS页面上获得HTTP链接,然后重定向回HTTPS,则可以将爬行器更改为从
response.url
读取协议,并在生成请求时使用该协议,而不是使用您找到的url。但有可能某些内容实际上是HTTP,并且由于协议更改,您将得到错误的响应