Scrapy 如何使用portia获得网站上最少的文章

Scrapy 如何使用portia获得网站上最少的文章,scrapy,portia,Scrapy,Portia,我正在使用portia来抓取一个网站的文章,现在我想知道,当运行portia spider时,如何每天获得最少的文章 我的想法是使用文章中的datetime,与现在的datetime相比。但是有更好的吗?取决于网站的结构,但是如果每篇文章都在不同的URL中,您可以使用spider中间件过滤以前爬网中访问过的URL 要启用install scrapylib并将其添加到settings.py,请执行以下操作: SPIDER_MIDDLEWARES = { 'scrapylib.deltafe

我正在使用portia来抓取一个网站的文章,现在我想知道,当运行portia spider时,如何每天获得最少的文章


我的想法是使用文章中的datetime,与现在的datetime相比。但是有更好的吗?

取决于网站的结构,但是如果每篇文章都在不同的URL中,您可以使用spider中间件过滤以前爬网中访问过的URL

要启用install scrapylib并将其添加到settings.py,请执行以下操作:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True