Python 通过从DataRicks更高效地获取API从web服务器获取文本数据

Python 通过从DataRicks更高效地获取API从web服务器获取文本数据,python,api,rest,python-requests,Python,Api,Rest,Python Requests,我试图通过使用基于Datatrick的dataframe Pypark的“get”API从web服务器获取一些数据 国防军: item_id (string) "scscwecagtrbs-thvwewq" "efcacergvsfbt-66iyndt" 在df中,每个项目_id都有一些文本数据http://my_example.com/items/“+web服务器上的项目id 我需要从那里获取每个项目的文本数据 我的py3代码: impo

我试图通过使用基于Datatrick的dataframe Pypark的“get”API从web服务器获取一些数据

国防军:

  item_id (string)
  "scscwecagtrbs-thvwewq"
  "efcacergvsfbt-66iyndt"
在df中,每个项目_id都有一些文本数据http://my_example.com/items/“+web服务器上的项目id

我需要从那里获取每个项目的文本数据

我的py3代码:

 import requests
 link = "http://my_example.com/items/" + item_id (from the df)
 response = requests.get(link)
 response.json()
我已经测试过了,它适用于单个item_id。但是,df可能有2k+“item_id”,我不想使用“for loop”逐个抓取它们

是否有更有效的方法并行地从web服务器获取所有item_id的文本数据

此外,web服务器只允许在一个事务中获取不超过100个


谢谢

查看mapPartitions,或者尝试重新划分udf以调用限制内的记录。看看下面的链接是否有帮助。