Python 如何从堆栈交换问题中提取标记信息

Python 如何从堆栈交换问题中提取标记信息,python,tags,extract,Python,Tags,Extract,我的问题是,我想创建一个数据库,其中包含所有问题、答案,最重要的是,来自某个(稍微小一些的)堆栈交换的标记。标签之间的关系(例如,经常一起使用的标签具有很强的关系)可以揭示社区的结构以及某些子领域的受欢迎程度或兴趣 那么,最简单的方法是什么来浏览一系列问题(排名为正)并使用Python提取标记信息呢?访问该站点以找到显示所需信息的URL,然后查看页面源以了解其格式 为了刮取页面,请使用库 使用库解析文本 将数据放入数据库 困难的事情将是构建数据库,并开发能够揭示您想要什么的查询 获取所有问题的共

我的问题是,我想创建一个数据库,其中包含所有问题、答案,最重要的是,来自某个(稍微小一些的)堆栈交换的标记。标签之间的关系(例如,经常一起使用的标签具有很强的关系)可以揭示社区的结构以及某些子领域的受欢迎程度或兴趣


那么,最简单的方法是什么来浏览一系列问题(排名为正)并使用Python提取标记信息呢?

访问该站点以找到显示所需信息的URL,然后查看页面源以了解其格式

  • 为了刮取页面,请使用库
  • 使用库解析文本
  • 将数据放入数据库
  • 困难的事情将是构建数据库,并开发能够揭示您想要什么的查询



    获取所有问题的共享标记计数的最简单方法是使用


    如果这不能满足您的需要,那么还有许多其他API查询可用。

    既然可以直接获取数据,为什么还要刮呢?谢谢,这正是我想要的
    import requests
    
    r = requests.get(
        'http://api.stackexchange.com/2.2/tags/python/related?pagesize=3&site=stackoverflow')
    
    for item in r.json()['items']:
       print("{name} shares {count} tags with Python".format(**item))