用python调用CNBC后端API
作为后续工作,我如何定位用于从CNBC新闻上的后端API检索数据的XHR请求,以便能够获取这些数据 最终目标是有一个文档:标题、日期、全文和url 我发现:用python调用CNBC后端API,python,api,selenium,web-scraping,selenium-chromedriver,Python,Api,Selenium,Web Scraping,Selenium Chromedriver,作为后续工作,我如何定位用于从CNBC新闻上的后端API检索数据的XHR请求,以便能够获取这些数据 最终目标是有一个文档:标题、日期、全文和url 我发现: 这说明我没有权限。有没有办法访问信息 事实上,我之前给你的回答是关于XHR请求的问题: 但是这里我们有一个屏幕截图: 导入请求 参数={ “查询键”:“31a35d40a9a64ab3”, “查询”:“冠状病毒”, “endindex”:“0”, “batchsize”:“100”, “回调”:“, “展示面”:“真实”, “时区偏移”:
这说明我没有权限。有没有办法访问信息 事实上,我之前给你的回答是关于
XHR
请求的问题:
但是这里我们有一个屏幕截图
:
导入请求
参数={
“查询键”:“31a35d40a9a64ab3”,
“查询”:“冠状病毒”,
“endindex”:“0”,
“batchsize”:“100”,
“回调”:“,
“展示面”:“真实”,
“时区偏移”:“-120”,
“facetedfields”:“格式”,
“facetedkey”:“格式|”,
“facetedvalue”:
“!新闻稿|”,
“needtoptickers”:“1”,
“其他索引”:“4cd6f71fbf22424d、937d600b0d0d4e23、3bfbe40caee7443e、626fdfcd96444f28”
}
目标=[“cn:title”、“发布日期”、“cn:liveURL”、“描述”]
def主(url):
将requests.Session()作为请求:
对于页面,枚举中的项(范围(0、1100、100)):
打印(f“提取页面#{Page+1}”)
参数[“endindex”]=项
r=req.get(url,params=params.json()
对于r['results']中的循环:
打印([目标中x的循环[x])
主要(”https://api.queryly.com/cnbc/json.aspx")
熊猫数据帧
版本:
导入请求
作为pd进口熊猫
参数={
“查询键”:“31a35d40a9a64ab3”,
“查询”:“冠状病毒”,
“endindex”:“0”,
“batchsize”:“100”,
“回调”:“,
“展示面”:“真实”,
“时区偏移”:“-120”,
“facetedfields”:“格式”,
“facetedkey”:“格式|”,
“facetedvalue”:
“!新闻稿|”,
“needtoptickers”:“1”,
“其他索引”:“4cd6f71fbf22424d、937d600b0d0d4e23、3bfbe40caee7443e、626fdfcd96444f28”
}
目标=[“cn:title”、“发布日期”、“cn:liveURL”、“描述”]
def主(url):
将requests.Session()作为请求:
allin=[]
对于页面,枚举中的项(范围(0、1100、100)):
打印(f“提取页面#{Page+1}”)
参数[“endindex”]=项
r=req.get(url,params=params.json()
对于r['results']中的循环:
allin.append([loop[x]代表目标中的x])
new=pd.DataFrame(
allin,columns=[“标题”、“日期”、“Url”、“说明”])
新建.to_csv(“data.csv”,index=False)
主要(”https://api.queryly.com/cnbc/json.aspx")
输出: