Api 列表=所有链接

Api 列表=所有链接,api,wikipedia,wikipedia-api,wikimedia,Api,Wikipedia,Wikipedia Api,Wikimedia,我正在为这个夏天做一个研究项目,我要用它从维基百科上获取一些数据,存储它,然后对它做一些分析。我正在使用WikipediaAPI收集数据,我已经很好地记录了这些数据 关于API中的links alllinks选项,我的问题是什么 在阅读了描述之后,无论是在那里还是在它本身(它是向下和位的,我不能直接链接到该部分),我想我理解它应该返回什么。然而,当我运行一个查询时,它返回了一些我没有预料到的东西 以下是我运行的查询: http://en.wikipedia.org/w/api.php?actio

我正在为这个夏天做一个研究项目,我要用它从维基百科上获取一些数据,存储它,然后对它做一些分析。我正在使用WikipediaAPI收集数据,我已经很好地记录了这些数据

关于API中的
links alllinks
选项,我的问题是什么 在阅读了描述之后,无论是在那里还是在它本身(它是向下和位的,我不能直接链接到该部分),我想我理解它应该返回什么。然而,当我运行一个查询时,它返回了一些我没有预料到的东西

以下是我运行的查询:

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=google&rvprop=ids|timestamp|user|comment|content&rvlimit=1&list=alllinks&alunique&allimit=40&format=xml
其实质是:获取Google页面的最后一个版本,包括每个版本的id、时间戳、用户、注释和内容,并以XML格式返回。 allinks(我认为)应该给我一个维基百科页面列表,这些页面指向谷歌页面(在本例中是前40个独特的页面)

我不确定咒骂的政策是什么,但这是我得到的确切结果:


部分,它只是一堆随机的胡言乱语和攻击性的评论。不,几乎和我想的一样。我已经做了相当多的搜索,但似乎找不到我问题的直接答案

  • list=alllinks
    选项应该返回什么
  • 为什么我要把这些垃圾放在那里

  • 你不想要一份清单;列表是在所有页面上迭代的内容。在本例中,您只需“枚举指向给定命名空间的所有链接”

    您需要一个和Google页面关联的属性,所以需要prop=links而不是alllinks垃圾

    因此,您的查询变成:

    1)听起来你下载了一个恰好在那一刻被破坏的页面。2) 我很想能够使用R对维基百科进行一些分析。你使用的是什么分析工具?我没有使用任何工具:P我自己写的,作为我实习研究的一部分。似乎没有什么像样的Ruby代码可以用来抓取维基百科。我现在正处于编写分析代码的阶段。请尝试,如果还不够好,请告诉我原因;)