Scrapy:如何在100个请求后停止爬行蜘蛛

Scrapy:如何在100个请求后停止爬行蜘蛛,scrapy,Scrapy,我想限制爬行蜘蛛在网站上访问的页面数量 在100个请求之后,我如何停止Scrapy爬行爬行器?我相信您可以使用closespider extension和closespider\u PAGECOUNT设置。根据报告: 。。。指定要爬网的最大响应数。如果蜘蛛 爬行不止一次,蜘蛛会被关上的原因 closespider\u页面计数 您只需在settings.py中设置: CLOSESPIDER_PAGECOUNT = 100 如果这不符合您的需要,另一种方法可能是使用Scrapy的模块编写您自己的

我想限制爬行蜘蛛在网站上访问的页面数量


在100个请求之后,我如何停止Scrapy爬行爬行器?

我相信您可以使用closespider extension和
closespider\u PAGECOUNT
设置。根据报告:

。。。指定要爬网的最大响应数。如果蜘蛛 爬行不止一次,蜘蛛会被关上的原因
closespider\u页面计数

您只需在settings.py中设置:

CLOSESPIDER_PAGECOUNT = 100 

如果这不符合您的需要,另一种方法可能是使用Scrapy的模块编写您自己的扩展,以跟踪请求的数量。

我相信您可以使用closespider扩展,并使用
closespider\u PAGECOUNT
设置。根据报告:

。。。指定要爬网的最大响应数。如果蜘蛛 爬行不止一次,蜘蛛会被关上的原因
closespider\u页面计数

您只需在settings.py中设置:

CLOSESPIDER_PAGECOUNT = 100 

如果这不适合您的需要,另一种方法是使用Scrapy的模块编写您自己的扩展,以跟踪请求的数量。

感谢您的快速响应。不幸的是,这对我不起作用。我以前是否必须加载扩展?我将CLOSESPIDER_PAGECOUNT=2添加到我的设置中,但爬虫程序没有停止。嗨@PhilippS。它是一个默认扩展,因此不需要显式加载它。你的刮擦版是什么?请尝试运行爬行器覆盖设置,如下所示:
scrapy crawl your_spider_name-s CLOSESPIDER_PAGECOUNT=2
。请记住,扩展计算的是响应,而不是请求,它们应该相加,但有时不会。谢谢您的快速响应。不幸的是,这对我不起作用。我以前是否必须加载扩展?我将CLOSESPIDER_PAGECOUNT=2添加到我的设置中,但爬虫程序没有停止。嗨@PhilippS。它是一个默认扩展,因此不需要显式加载它。你的刮擦版是什么?请尝试运行爬行器覆盖设置,如下所示:
scrapy crawl your_spider_name-s CLOSESPIDER_PAGECOUNT=2
。请记住,扩展计算的是响应,而不是请求,它们应该加起来,但有时不会。