Web scraping 网页垃圾与刮擦-如何解释设置_Web Scraping_Scrapy_Settings

Web scraping 网页垃圾与刮擦-如何解释设置

web-scraping scrapy

Web scraping 网页垃圾与刮擦-如何解释设置,web-scraping,scrapy,settings,Web Scraping,Scrapy,Settings,我目前正在清理公司网站，深度为2。我创建了一个脚本，可以循环浏览excel工作表中给出的公司列表及其URL，并为每个公司启动一个爬行器。关于这一点，我不幸地经历了其中一家公司抱怨他们的服务器上的活动太多——一个站点的点击率高达每秒8次，尽管我认为使用AUTOTHROTTLE可以节省很多。我曾试图调查有关刮擦设置的问题，但仍有一些（但关键的）解释问题。我的目标是运行一个极其安全/礼貌的刮板，它永远不会使任何服务器过载我以前的设置：自动油门启用=真重试次数=5次下载\u超时=10 ROBOT

我目前正在清理公司网站，深度为2。我创建了一个脚本，可以循环浏览excel工作表中给出的公司列表及其URL，并为每个公司启动一个爬行器。关于这一点，我不幸地经历了其中一家公司抱怨他们的服务器上的活动太多——一个站点的点击率高达每秒8次，尽管我认为使用AUTOTHROTTLE可以节省很多。我曾试图调查有关刮擦设置的问题，但仍有一些（但关键的）解释问题。我的目标是运行一个极其安全/礼貌的刮板，它永远不会使任何服务器过载

我以前的设置：

自动油门启用=真

重试次数=5次

下载\u超时=10

ROBOTSTEXT_服从=真

COOKIES\u ENABLED=错误

下载\u MAXSIZE=100000

我添加的新设置：

并发\u请求\u PR\u域=1 （我有一个想法，每秒最多8次点击是由于默认情况下每个域的并发请求是8次）

下载延迟=1

我就是这样理解Scrapy及其流程的：

并发请求=我自己的计算机同时处理的最大请求数

CONCURRENT_REQUESTS_PER_DOMAIN=将发送到一个域的最大并发请求数

下载延迟=每个插槽之间的延迟

AUTOTHROTTLE=自动调整与单个服务器相关的延迟。它作用于DOWLOAD_延迟的“顶部”，因此它只能将延迟调整为大于下载_延迟，而不能小于下载_延迟。此外，它还可以调整并发请求的数量，但在这里它是有限的：每个域的并发请求是一个上限。

问题是什么？我对上述设置的理解正确吗？调整后的设置能保证我不会过载任何外部服务器吗？“我对上述设置的理解正确吗？”似乎是这样；你有什么理由不这么认为吗？“调整后的设置是否能保证我不会过载任何外部服务器？”您永远无法保证不会过载服务器。您的设置不会使某些服务器过载；对于其他服务器，您可能需要更高的下载延迟。