scrapy splash爬虫启动速度快但速度慢(不受网站限制)

scrapy splash爬虫启动速度快但速度慢(不受网站限制),scrapy,scrapy-splash,splash-js-render,Scrapy,Scrapy Splash,Splash Js Render,我有一个通过scrapy splash python包使用splash浏览器用scrapy编写的爬虫程序。我正在使用水族馆python包来平衡对splash docker集群的并行scrapy请求的负载 scraper使用一长串URL作为起始URL列表。没有通过hrefs或分页从一页到另一页的“爬行” 我正在运行六个splash dockers,每个splash有5个插槽,作为负载平衡的浏览器集群。我在六个并发请求中运行scrapy 开发人员的机器是macbook pro,具有双核2.4Ghz

我有一个通过scrapy splash python包使用splash浏览器用scrapy编写的爬虫程序。我正在使用水族馆python包来平衡对splash docker集群的并行scrapy请求的负载

scraper使用一长串URL作为起始URL列表。没有通过hrefs或分页从一页到另一页的“爬行”

我正在运行六个splash dockers,每个splash有5个插槽,作为负载平衡的浏览器集群。我在六个并发请求中运行scrapy

开发人员的机器是macbook pro,具有双核2.4Ghz CPU和16Gb RAM

当spider启动时,水族馆标准输出显示快速请求/响应,板载风扇旋转,系统以90%的使用率和10%的空闲率运行,因此我不会使系统资源过载。内存/交换也没有耗尽

此时,我的阅读速度非常慢,每分钟约30页。几分钟后,风扇转速下降,系统资源明显空闲(>60%空闲),并且scrapy日志显示每个请求都有503超时

当我查看水族馆集群的stdout时,有一些请求正在被处理,尽管与第一次调用spider时相比非常缓慢

如果我访问localhost:9050,我会在大约10秒后看到启动页面,因此负载平衡器/启动是在线的

如果我停止spider并重新启动它,它会正常启动,因此这似乎不是目标站点的限制,因为spider重新启动也会被限制,但不是

我很感激社区能提供的任何见解

谢谢