Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/spring/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从维基百科中找到属于一个主题的文章的正确命题_Python_Wikipedia Api - Fatal编程技术网

Python 从维基百科中找到属于一个主题的文章的正确命题

Python 从维基百科中找到属于一个主题的文章的正确命题,python,wikipedia-api,Python,Wikipedia Api,我正在从维基百科收集一些文章(几十到几百篇,注意维基百科API的礼貌限制) 所有的文章都是品牌,在很多情况下,关键词可以是非常通用的,而不仅仅是指一个品牌。作为回报,我得到了其他建议,如: Arla可指: Arla(文件系统) 阿拉(蛾),蛾的一个属 阿肯色州图书馆协会 希腊阿拉,一个村庄\n\u00c4rla,东南部的一个村庄 瑞典 Arla Foods,一家大型斯堪的纳维亚生产商 我想找出属于“品牌类别”的一个,但我也可以放上其他相关关键词,如“食品或饮料” 我可以使用WikipediaAP

我正在从维基百科收集一些文章(几十到几百篇,注意维基百科API的礼貌限制)

所有的文章都是品牌,在很多情况下,关键词可以是非常通用的,而不仅仅是指一个品牌。作为回报,我得到了其他建议,如:

Arla可指:

  • Arla(文件系统)
  • 阿拉(蛾),蛾的一个属
  • 阿肯色州图书馆协会
  • 希腊阿拉,一个村庄\n\u00c4rla,东南部的一个村庄 瑞典
  • Arla Foods,一家大型斯堪的纳维亚生产商
  • 我想找出属于“品牌类别”的一个,但我也可以放上其他相关关键词,如“食品或饮料”

    我可以使用WikipediaAPI获取包含一些关键字的命题吗

    问题是,当存在歧义时,响应JSON的形式与找到一篇文章时相同

    检查我的脚本:

    import requests
    import time
    result = {}
    for q in spotted_keywords:
        url = 'https://en.wikipedia.org/w/api.php?action=query&prop=extracts&exintro&explaintext&format=json&exintro=&titles='+q+'&redirects=true'
        r = requests.get(url)
        json_data = r.json()
        extract = list(json_data['query']['pages'].values())[0]
        if('extract' in extract):
            result[q] = extract['extract']
            time.sleep(1)
    
    你的关键词像是
    [“麦当劳”、“可口可乐”…]

    一种反应是:

    {
       "batchcomplete":"",
       "query":{
          "normalized":[
             {
                "from":"arla",
                "to":"Arla"
             }
          ],
          "pages":{
             "360264":{
                "pageid":360264,
                "ns":0,
                "title":"Arla",
                "extract":"Arla may refer to:\n\nArla (file system)\nArla (moth), a genus of moth\nArkansas Library Association\nArla, Greece, a village\n\u00c4rla, a village in south-eastern Sweden\nArla Foods, a large Scandinavian producer of dairy products\nArla (Finland), a subsidiary of Arla Foods\nArla Foods UK, a subsidiary of Arla Foods\nARLA, Arm\u00e9e r\u00e9volutionnaire de lib\u00e9ration de l'Azawad (French), Revolutionary Liberation Army of Azawad"
             }
          }
       }
    }
    
    有什么提示吗?

    感谢您的回复,我知道了python的
    wikipedia


    然而,我只是尝试了一下“Arla”关键字,它并没有引起
    消歧错误
    。就答复中所建议的“汞”而言,确实如此。因此,我担心它会漏掉很多歧义。

    您可以在API请求中添加
    prop=pageprops&ppprop=disambiguation
    ,以获取有关它是否是消歧页面的信息。

    很好,谢谢,这是一个加号。否则,我写了一个小脚本,在其他命题看到这里的时候再试一次