Mediawiki 将Wikipedia转储解析为纯文本,其中保留结构(节)

Mediawiki 将Wikipedia转储解析为纯文本,其中保留结构(节),mediawiki,wiki,wikipedia,mediawiki-templates,Mediawiki,Wiki,Wikipedia,Mediawiki Templates,我一直在搜索wikipedia将解析器转储到可定制的xml中,基本上每篇文章都应该被解析成一组节标记,其中包含文章的节纯文本。我提出了以下解决方案 第一种方法的问题是,它仅在windows上可用,而第二种方法没有提供在嵌套xml方案中生成节的功能。以前的实现似乎提供了这样的功能,但遗憾的是新版本没有。linux上是否有wikipedia xml转储解析器可以生成可定制的xml 我认为使用jsonwikipedia[1]是可行的。它从WikipediaXML转储中生成一个“json转储”。

我一直在搜索wikipedia将解析器转储到可定制的xml中,基本上每篇文章都应该被解析成一组节标记,其中包含文章的节纯文本。我提出了以下解决方案


第一种方法的问题是,它仅在windows上可用,而第二种方法没有提供在嵌套xml方案中生成节的功能。以前的实现似乎提供了这样的功能,但遗憾的是新版本没有。linux上是否有wikipedia xml转储解析器可以生成可定制的xml

我认为使用jsonwikipedia[1]是可行的。它从WikipediaXML转储中生成一个“json转储”。更多关于jsonwikipedia和其他工具的详细信息,请参阅本文[2]

[1] -

[2] -