Python 仅限Scrapy节流和请求调度的微服务

Python 仅限Scrapy节流和请求调度的微服务,python,scrapy,python-requests,microservices,grequests,Python,Scrapy,Python Requests,Microservices,Grequests,我目前正在使用python请求下载大约20000页的json。我遇到了一些瓶颈,因为我正在抓取的服务器限制了速率,并且可能缺少异步调用/调度。我认为scrapy将是一个很好的解决方案,因为我听说它有一些功能来解决与scraping相关的问题。问题是,这些是我唯一需要的部分,我不需要spidering/parsing/orm/等等。看看这些文档,我不清楚如何将这些组件分离出来。我只需要一个微型服务来完成scrapy的这部分工作。这瓶酒是给斯拉皮的德扬戈的。我看到grequests可能有助于异步,但

我目前正在使用python请求下载大约20000页的json。我遇到了一些瓶颈,因为我正在抓取的服务器限制了速率,并且可能缺少异步调用/调度。我认为scrapy将是一个很好的解决方案,因为我听说它有一些功能来解决与scraping相关的问题。问题是,这些是我唯一需要的部分,我不需要spidering/parsing/orm/等等。看看这些文档,我不清楚如何将这些组件分离出来。我只需要一个微型服务来完成scrapy的这部分工作。这瓶酒是给斯拉皮的德扬戈的。我看到grequests可能有助于异步,但如果我这样做,我仍然需要限制速率和重试失败请求的方法。有人能给我指出正确的方向吗?

如果你想在限速方面有所帮助,我建议使用代理轮换服务,如果你已经准备好了爬虫,就不需要Scrapy了


我会推荐或。

这是一种有趣的方法。Tor是否有助于解决这一问题,或者有太多的开销/太慢而无法加快速度。Tor也是另一种方法,我不能说我已经尝试过了。Tor可能会有帮助,但您需要一些其他库,如Stem,用于从Python代码控制Tor,并且必须归纳出一些关于何时应该更改Tor标识(代理)的逻辑。