为什么Scrapy很慢?

为什么Scrapy很慢?,scrapy,Scrapy,我正在抓取一个网站,并解析一些内容+图片,但即使是100页左右的简单网站,这项工作也需要数小时。我正在使用以下设置。任何帮助都将不胜感激。我已经看到了这个问题,但无法获得太多的洞察力 EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1} LOGSTATS_INTERVAL = 60.0 RETRY_TIMES = 4 CONCURRENT_REQUESTS = 32 CONCURRENT_REQUESTS_PER_DOMAIN = 12 CON

我正在抓取一个网站,并解析一些内容+图片,但即使是100页左右的简单网站,这项工作也需要数小时。我正在使用以下设置。任何帮助都将不胜感激。我已经看到了这个问题,但无法获得太多的洞察力

EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75

您确定网站的响应正常吗

设置DOWNLOAD_DELAY=0.75将强制请求按顺序进行,并在请求之间添加0.75秒的延迟。如果你删除它,你的爬网速度肯定会更快,但是,每个域有12个并发请求,小心不要攻击网站太过激烈


即使有延迟,也不应该需要几个小时,所以我想知道这个网站是慢还是没有反应。有些网站会这样对待机器人。

所有网站都是如此。因此,我担心Scrapy架构是否具有足够的可扩展性,可以用于此类工作。顺便说一句,在标准条件下的预期费率是多少。e、 g.N页数/小时左右?如果你的机器人没有网络限制,通常你会在几秒钟内抓取几百页。问题不在于粗糙的体系结构。更可能的情况是设置、硬件/网络、正在爬网的站点、蜘蛛代码等。Shane,当你说“下载延迟=0.75将强制请求按顺序进行…”你的意思是
并发请求
设置将被忽略吗?不,设置下载延迟不会使并发请求被忽略