Mediawiki 按类别导出维基百科选项?

Mediawiki 按类别导出维基百科选项?,mediawiki,wikipedia,Mediawiki,Wikipedia,我知道我可以完全下载维基百科。但我想知道是否有办法按类别下载它?他们有页面,但编写一个类别(例如文化)会添加子页面和其他类别,因此尝试获取文化中的所有页面需要“永远”,因为当您提交文化的其他子类别时,会出现另一个显示。你们知道有什么其他方法可以分类出口吗?(简单地说)我认为没有其他简单的方法可以做到这一点 我认为您最好下载所有文章的转储文件(页面文章,目前英文维基百科为7.5 GB),并按类别进行过滤,可能使用类别成员转储(类别链接,1 GB) 另一个选项是执行与使用“特殊:手动导出”类似的操作

我知道我可以完全下载维基百科。但我想知道是否有办法按类别下载它?他们有页面,但编写一个类别(例如文化)会添加子页面和其他类别,因此尝试获取文化中的所有页面需要“永远”,因为当您提交文化的其他子类别时,会出现另一个显示。你们知道有什么其他方法可以分类出口吗?(简单地说)

我认为没有其他简单的方法可以做到这一点

我认为您最好下载所有文章的转储文件(
页面文章
,目前英文维基百科为7.5 GB),并按类别进行过滤,可能使用类别成员转储(
类别链接
,1 GB)

另一个选项是执行与使用“特殊:手动导出”类似的操作,但使用将其自动化。

使用,您可以通过使用作为查询的索引来获取类别中所有页面的wikitext,如下所示:

这个示例链接给出了Wikipedia上的前10篇文章的内容。您可以添加
gcmlimit=max
参数以获得更多页面,但对于大型类别,您需要正确处理(或使用一个为您处理它们的工具)


(但是,此查询不会显示Category:Culture子类别中的页面。如果您也需要这些页面,您可以使用简单的
categorymembers
查询(不带
cmnamespace
)获取类别中的页面和子类别列表,并通过结果递归收集要导出的文章标题列表。如果这样做,请小心。)不要陷入任何类别循环,最好在导出页面之前对结果进行健全性检查-很容易从完整的子类别遍历中获得比预期多得多的页面。)

谢谢您的回答:)我会尽力做到这一点way@Andrew你是如何解决你的问题的?我需要做类似的事情。我想递归地获取历史类别中的所有页面,类似于使用mysql转储。我已经下载了维基百科页面、类别和类别链接。我现在把它们都放在数据库里了。:)您可能希望尝试以下php脚本: