Web scraping 网页垃圾与刮擦-如何解释设置

Web scraping 网页垃圾与刮擦-如何解释设置,web-scraping,scrapy,settings,Web Scraping,Scrapy,Settings,我目前正在清理公司网站,深度为2。我创建了一个脚本,可以循环浏览excel工作表中给出的公司列表及其URL,并为每个公司启动一个爬行器。关于这一点,我不幸地经历了其中一家公司抱怨他们的服务器上的活动太多——一个站点的点击率高达每秒8次,尽管我认为使用AUTOTHROTTLE可以节省很多。我曾试图调查有关刮擦设置的问题,但仍有一些(但关键的)解释问题。我的目标是运行一个极其安全/礼貌的刮板,它永远不会使任何服务器过载 我以前的设置: 自动油门启用=真 重试次数=5次 下载\u超时=10 ROBOT

我目前正在清理公司网站,深度为2。我创建了一个脚本,可以循环浏览excel工作表中给出的公司列表及其URL,并为每个公司启动一个爬行器。关于这一点,我不幸地经历了其中一家公司抱怨他们的服务器上的活动太多——一个站点的点击率高达每秒8次,尽管我认为使用AUTOTHROTTLE可以节省很多。我曾试图调查有关刮擦设置的问题,但仍有一些(但关键的)解释问题。我的目标是运行一个极其安全/礼貌的刮板,它永远不会使任何服务器过载

我以前的设置:

自动油门启用=真

重试次数=5次

下载\u超时=10

ROBOTSTEXT_服从=真

COOKIES\u ENABLED=错误

下载\u MAXSIZE=100000

我添加的新设置:

并发\u请求\u PR\u域=1 (我有一个想法,每秒最多8次点击是由于默认情况下每个域的并发请求是8次)

下载延迟=1

我就是这样理解Scrapy及其流程的:

并发请求=我自己的计算机同时处理的最大请求数

CONCURRENT_REQUESTS_PER_DOMAIN=将发送到一个域的最大并发请求数

下载延迟=每个插槽之间的延迟


AUTOTHROTTLE=自动调整与单个服务器相关的延迟。它作用于DOWLOAD_延迟的“顶部”,因此它只能将延迟调整为大于下载_延迟,而不能小于下载_延迟。此外,它还可以调整并发请求的数量,但在这里它是有限的:每个域的并发请求是一个上限。

问题是什么?我对上述设置的理解正确吗?调整后的设置能保证我不会过载任何外部服务器吗?“我对上述设置的理解正确吗?”似乎是这样;你有什么理由不这么认为吗?“调整后的设置是否能保证我不会过载任何外部服务器?”您永远无法保证不会过载服务器。您的设置不会使某些服务器过载;对于其他服务器,您可能需要更高的下载延迟。