Parsing 如何解析维基百科转储以创建链接图?

Parsing 如何解析维基百科转储以创建链接图?,parsing,graph,hyperlink,dump,wikipedia,Parsing,Graph,Hyperlink,Dump,Wikipedia,我正在寻找一种方法来解析维基百科转储并检索每个页面中的超链接。我的主要目标是在从一个维基百科页面到另一个页面的可能路径上创建一个有向图 例如:“狗”的页面定义中有一个指向“犬狼疮”的链接。所以我会有一个 狗->犬狼疮作为输出 PS:如果有python库的话,我更喜欢它。因为,你正在尝试处理图论,你需要两件事- 图的生成 图形的实现与存储 生产 您可能会尝试使用wikimedia中的XML转储来达到您的目的。 我建议最好的解决方案是使用某种解析脚本从文档中提取链接 实施 要存储巨大的图形,必须

我正在寻找一种方法来解析维基百科转储并检索每个页面中的超链接。我的主要目标是在从一个维基百科页面到另一个页面的可能路径上创建一个有向图

例如:“狗”的页面定义中有一个指向“犬狼疮”的链接。所以我会有一个 狗->犬狼疮作为输出


PS:如果有python库的话,我更喜欢它。

因为,你正在尝试处理图论,你需要两件事-

  • 图的生成
  • 图形的实现与存储
生产

您可能会尝试使用wikimedia中的XML转储来达到您的目的。
我建议最好的解决方案是使用某种解析脚本从文档中提取链接

实施

要存储巨大的图形,必须将脚本的输出存储在某种图形数据库中。在这里看看一些流行的


因此,过程很简单。您的脚本将逐个解析文档,并将结果存储在图形数据库中,您可以稍后使用该数据库。

最简单的方法是使用已包含页面间链接信息的转储:pagelinks.sql。要使用它,您需要将其导入MySQL数据库,然后可以从任何语言访问该数据库。要理解该转储中的数据,还需要导入page.sql。

XML转储不是一个好选项,如果您只需要页面之间的链接。