Scrapy阻止跨计划访问同一URL

Scrapy阻止跨计划访问同一URL,scrapy,scrapinghub,Scrapy,Scrapinghub,我计划在ScrapingHub上部署一个Scrapy spider,并使用schedule功能每天运行该spider。我知道,默认情况下,Scrapy不会访问相同的URL。然而,我想知道这种重复的URL避免是否会在ScrapingHub上的计划启动中持续存在?以及我是否可以设置它,使Scrapy不会在其预定的开始访问相同的URL DeltaFetch是一个脆弱的插件,可在不同的爬行器运行中存储访问URL的指纹。您可以使用此插件进行增量(增量)爬网。它的主要目的是避免请求以前已经刮过的页面,即使它

我计划在ScrapingHub上部署一个Scrapy spider,并使用schedule功能每天运行该spider。我知道,默认情况下,Scrapy不会访问相同的URL。然而,我想知道这种重复的URL避免是否会在ScrapingHub上的计划启动中持续存在?以及我是否可以设置它,使Scrapy不会在其预定的开始访问相同的URL

DeltaFetch是一个脆弱的插件,可在不同的爬行器运行中存储访问URL的指纹。您可以使用此插件进行增量(增量)爬网。它的主要目的是避免请求以前已经刮过的页面,即使它发生在以前的执行中。它只会向以前未提取项目的页面、spider的start\u url属性中的URL或spider的start\u requests方法中生成的请求发出请求

请参见:

插件库:

在Scrapinghub的仪表板中,您可以在Scrapy Cloud项目内的插件设置页面上激活它。不过,您还需要激活/启用DotScrapy持久性插件才能使其工作