Scrapy：如何在100个请求后停止爬行蜘蛛_Scrapy

Scrapy：如何在100个请求后停止爬行蜘蛛

scrapy

Scrapy：如何在100个请求后停止爬行蜘蛛,scrapy,Scrapy,我想限制爬行蜘蛛在网站上访问的页面数量在100个请求之后，我如何停止Scrapy爬行爬行器？我相信您可以使用closespider extension和closespider\u PAGECOUNT设置。根据报告：。。。指定要爬网的最大响应数。如果蜘蛛爬行不止一次，蜘蛛会被关上的原因 closespider\u页面计数您只需在settings.py中设置： CLOSESPIDER_PAGECOUNT = 100 如果这不符合您的需要，另一种方法可能是使用Scrapy的模块编写您自己的

我想限制爬行蜘蛛在网站上访问的页面数量

在100个请求之后，我如何停止Scrapy爬行爬行器？

我相信您可以使用closespider extension和

closespider\u PAGECOUNT

设置。根据报告：

。。。指定要爬网的最大响应数。如果蜘蛛爬行不止一次，蜘蛛会被关上的原因

closespider\u页面计数

您只需在settings.py中设置：

CLOSESPIDER_PAGECOUNT = 100

如果这不符合您的需要，另一种方法可能是使用Scrapy的模块编写您自己的扩展，以跟踪请求的数量。

我相信您可以使用closespider扩展，并使用

closespider\u PAGECOUNT

设置。根据报告：

。。。指定要爬网的最大响应数。如果蜘蛛爬行不止一次，蜘蛛会被关上的原因

closespider\u页面计数

您只需在settings.py中设置：

CLOSESPIDER_PAGECOUNT = 100

如果这不适合您的需要，另一种方法是使用Scrapy的模块编写您自己的扩展，以跟踪请求的数量。

感谢您的快速响应。不幸的是，这对我不起作用。我以前是否必须加载扩展？我将CLOSESPIDER_PAGECOUNT=2添加到我的设置中，但爬虫程序没有停止。嗨@PhilippS。它是一个默认扩展，因此不需要显式加载它。你的刮擦版是什么？请尝试运行爬行器覆盖设置，如下所示：

scrapy crawl your_spider_name-s CLOSESPIDER_PAGECOUNT=2

。请记住，扩展计算的是响应，而不是请求，它们应该相加，但有时不会。谢谢您的快速响应。不幸的是，这对我不起作用。我以前是否必须加载扩展？我将CLOSESPIDER_PAGECOUNT=2添加到我的设置中，但爬虫程序没有停止。嗨@PhilippS。它是一个默认扩展，因此不需要显式加载它。你的刮擦版是什么？请尝试运行爬行器覆盖设置，如下所示：

scrapy crawl your_spider_name-s CLOSESPIDER_PAGECOUNT=2

。请记住，扩展计算的是响应，而不是请求，它们应该加起来，但有时不会。