Scrapy 刮擦过滤器相同的URL在“中不同”；http「；及；https"；_Scrapy

Scrapy 刮擦过滤器相同的URL在“中不同”；http「；及；https"；

scrapy

Scrapy 刮擦过滤器相同的URL在“中不同”；http「；及；https"；,scrapy,Scrapy,我注意到scrapy将抓取两个仅在方案上不同的页面，例如“和”，这实际上会使我的请求增加一倍。有什么方法可以过滤其中的一半吗没有通用的方法。根据您的具体情况，可能会采用不同的解决方案，也可能没有好的解决方案如果问题出在某个特定的域上，您可以编写spider，以便它在生成新请求时使用正确的协议如果是针对任意数量的域的广泛爬网，可能有点棘手。大多数域将HTTP重定向到HTTPS，但一些域将HTTPS流量重定向到HTTP 在后一种情况下，如果问题是在HTTPS页面上获得HTTP链接，然后重定向回

我注意到scrapy将抓取两个仅在方案上不同的页面，例如“和”，这实际上会使我的请求增加一倍。有什么方法可以过滤其中的一半吗

没有通用的方法。根据您的具体情况，可能会采用不同的解决方案，也可能没有好的解决方案

如果问题出在某个特定的域上，您可以编写spider，以便它在生成新请求时使用正确的协议

如果是针对任意数量的域的广泛爬网，可能有点棘手。大多数域将HTTP重定向到HTTPS，但一些域将HTTPS流量重定向到HTTP

在后一种情况下，如果问题是在HTTPS页面上获得HTTP链接，然后重定向回HTTPS，则可以将爬行器更改为从

response.url

读取协议，并在生成请求时使用该协议，而不是使用您找到的url。但有可能某些内容实际上是HTTP，并且由于协议更改，您将得到错误的响应