Scrapy阻止跨计划访问同一URL_Scrapy_Scrapinghub

Scrapy阻止跨计划访问同一URL

scrapy

Scrapy阻止跨计划访问同一URL,scrapy,scrapinghub,Scrapy,Scrapinghub,我计划在ScrapingHub上部署一个Scrapy spider，并使用schedule功能每天运行该spider。我知道，默认情况下，Scrapy不会访问相同的URL。然而，我想知道这种重复的URL避免是否会在ScrapingHub上的计划启动中持续存在？以及我是否可以设置它，使Scrapy不会在其预定的开始访问相同的URL DeltaFetch是一个脆弱的插件，可在不同的爬行器运行中存储访问URL的指纹。您可以使用此插件进行增量（增量）爬网。它的主要目的是避免请求以前已经刮过的页面，即使它

我计划在ScrapingHub上部署一个Scrapy spider，并使用schedule功能每天运行该spider。我知道，默认情况下，Scrapy不会访问相同的URL。然而，我想知道这种重复的URL避免是否会在ScrapingHub上的计划启动中持续存在？以及我是否可以设置它，使Scrapy不会在其预定的开始访问相同的URL

DeltaFetch是一个脆弱的插件，可在不同的爬行器运行中存储访问URL的指纹。您可以使用此插件进行增量（增量）爬网。它的主要目的是避免请求以前已经刮过的页面，即使它发生在以前的执行中。它只会向以前未提取项目的页面、spider的start\u url属性中的URL或spider的start\u requests方法中生成的请求发出请求

请参见：

插件库：

在Scrapinghub的仪表板中，您可以在Scrapy Cloud项目内的插件设置页面上激活它。不过，您还需要激活/启用DotScrapy持久性插件才能使其工作