scrapy splash爬虫启动速度快但速度慢（不受网站限制）_Scrapy_Scrapy Splash_Splash Js Render

scrapy splash爬虫启动速度快但速度慢（不受网站限制）

scrapy

scrapy splash爬虫启动速度快但速度慢（不受网站限制）,scrapy,scrapy-splash,splash-js-render,Scrapy,Scrapy Splash,Splash Js Render,我有一个通过scrapy splash python包使用splash浏览器用scrapy编写的爬虫程序。我正在使用水族馆python包来平衡对splash docker集群的并行scrapy请求的负载 scraper使用一长串URL作为起始URL列表。没有通过hrefs或分页从一页到另一页的“爬行” 我正在运行六个splash dockers，每个splash有5个插槽，作为负载平衡的浏览器集群。我在六个并发请求中运行scrapy 开发人员的机器是macbook pro，具有双核2.4Ghz

我有一个通过scrapy splash python包使用splash浏览器用scrapy编写的爬虫程序。我正在使用水族馆python包来平衡对splash docker集群的并行scrapy请求的负载

scraper使用一长串URL作为起始URL列表。没有通过hrefs或分页从一页到另一页的“爬行”

我正在运行六个splash dockers，每个splash有5个插槽，作为负载平衡的浏览器集群。我在六个并发请求中运行scrapy

开发人员的机器是macbook pro，具有双核2.4Ghz CPU和16Gb RAM

当spider启动时，水族馆标准输出显示快速请求/响应，板载风扇旋转，系统以90%的使用率和10%的空闲率运行，因此我不会使系统资源过载。内存/交换也没有耗尽

此时，我的阅读速度非常慢，每分钟约30页。几分钟后，风扇转速下降，系统资源明显空闲（>60%空闲），并且scrapy日志显示每个请求都有503超时

当我查看水族馆集群的stdout时，有一些请求正在被处理，尽管与第一次调用spider时相比非常缓慢

如果我访问localhost:9050，我会在大约10秒后看到启动页面，因此负载平衡器/启动是在线的

如果我停止spider并重新启动它，它会正常启动，因此这似乎不是目标站点的限制，因为spider重新启动也会被限制，但不是

我很感激社区能提供的任何见解

谢谢