Python 从维基百科中找到属于一个主题的文章的正确命题
我正在从维基百科收集一些文章(几十到几百篇,注意维基百科API的礼貌限制) 所有的文章都是品牌,在很多情况下,关键词可以是非常通用的,而不仅仅是指一个品牌。作为回报,我得到了其他建议,如: Arla可指:Python 从维基百科中找到属于一个主题的文章的正确命题,python,wikipedia-api,Python,Wikipedia Api,我正在从维基百科收集一些文章(几十到几百篇,注意维基百科API的礼貌限制) 所有的文章都是品牌,在很多情况下,关键词可以是非常通用的,而不仅仅是指一个品牌。作为回报,我得到了其他建议,如: Arla可指: Arla(文件系统) 阿拉(蛾),蛾的一个属 阿肯色州图书馆协会 希腊阿拉,一个村庄\n\u00c4rla,东南部的一个村庄 瑞典 Arla Foods,一家大型斯堪的纳维亚生产商 我想找出属于“品牌类别”的一个,但我也可以放上其他相关关键词,如“食品或饮料” 我可以使用WikipediaAP
import requests
import time
result = {}
for q in spotted_keywords:
url = 'https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exintro&explaintext&format=json&exintro=&titles='+q+'&redirects=true'
r = requests.get(url)
json_data = r.json()
extract = list(json_data['query']['pages'].values())[0]
if('extract' in extract):
result[q] = extract['extract']
time.sleep(1)
你的关键词像是[“麦当劳”、“可口可乐”…]
一种反应是:
{
"batchcomplete":"",
"query":{
"normalized":[
{
"from":"arla",
"to":"Arla"
}
],
"pages":{
"360264":{
"pageid":360264,
"ns":0,
"title":"Arla",
"extract":"Arla may refer to:\n\nArla (file system)\nArla (moth), a genus of moth\nArkansas Library Association\nArla, Greece, a village\n\u00c4rla, a village in south-eastern Sweden\nArla Foods, a large Scandinavian producer of dairy products\nArla (Finland), a subsidiary of Arla Foods\nArla Foods UK, a subsidiary of Arla Foods\nARLA, Arm\u00e9e r\u00e9volutionnaire de lib\u00e9ration de l'Azawad (French), Revolutionary Liberation Army of Azawad"
}
}
}
}
有什么提示吗?感谢您的回复,我知道了python的wikipedia
包
然而,我只是尝试了一下“Arla”关键字,它并没有引起
消歧错误
。就答复中所建议的“汞”而言,确实如此。因此,我担心它会漏掉很多歧义。您可以在API请求中添加prop=pageprops&ppprop=disambiguation
,以获取有关它是否是消歧页面的信息。很好,谢谢,这是一个加号。否则,我写了一个小脚本,在其他命题看到这里的时候再试一次