Python “日程安排”;刮削;RESTAPI中的数据类型

Python “日程安排”;刮削;RESTAPI中的数据类型,python,Python,我从中提取数据的一个数据源以JSON响应的形式通过RESTAPI提供访问。这很好,因为我得到的数据已经是结构化的,也就是说,对非结构化HTML文档进行抓取和解析的痛苦更少 但是,它们通过速率限制来限制HTTP流量:每分钟/小时/月/IP/用户电子邮件请求数 当我用Scrapy抓取HTML文档时,我可以轻松地配置每秒的请求数、后续请求之间的延迟、线程数等。我将其称为“加载策略”。它在Scrapy UndertheHood中的工作方式是,我生成大量的HTTP请求,Scrapy将这些请求放入队列,并根

我从中提取数据的一个数据源以JSON响应的形式通过RESTAPI提供访问。这很好,因为我得到的数据已经是结构化的,也就是说,对非结构化HTML文档进行抓取和解析的痛苦更少

但是,它们通过速率限制来限制HTTP流量:每分钟/小时/月/IP/用户电子邮件请求数

当我用Scrapy抓取HTML文档时,我可以轻松地配置每秒的请求数、后续请求之间的延迟、线程数等。我将其称为“加载策略”。它在Scrapy UndertheHood中的工作方式是,我生成大量的HTTP请求,Scrapy将这些请求放入队列,并根据给定的“加载策略”处理队列中的请求

RESTAPI有类似的功能吗


为了提供一些上下文,我使用的是从数据源Swagger定义生成的Python REST客户端。客户端在后台使用urlib3。客户端提供了一种以异步方式执行请求的方法,以及一种配置线程池的方法,但看起来我需要在配置线程池时稍作调整。我正在寻找现成的解决方案。

使用生成的客户端,您将能够向相应的REST API发出请求。但是,您需要构建自己的代码/逻辑,以便在请求和请求队列之间插入延迟。Scrapy为您提供的许多便利都需要由您实现。或者,您需要找到为您提供此功能的工具/软件包。

正确。我想在这里征求工具推荐是个坏主意/地方。是否更合适?您可能会以某种方式将现有的招摇过市的客户机塞进Scrapy中,但似乎询问好的软件包/工具将是下一步的好方法。相关: