正在查找wikidump python库的示例或文档

正在查找wikidump python库的示例或文档,python,mediawiki,wikipedia,Python,Mediawiki,Wikipedia,我偶然发现了python库,我认为它非常适合我 我可以通过查看源代码过日子,但我对python是新手,我不想编写BS代码,因为我需要它的项目对我来说有点重要 我得到了“wiki SPECIFICDATE pages articles.xml.bz2”文件,我需要将其用作获取单个文章的源代码。有谁能给我一些正确实现这一点的建议,或者更好的是,指向一些文档?我找不到 (顺便说一句,如果你有更好、正确的文档库,请告诉我)不确定我是否理解这个问题,但是如果你有维基百科转储,需要解析维基代码,我建议使用文

我偶然发现了python库,我认为它非常适合我

我可以通过查看源代码过日子,但我对python是新手,我不想编写BS代码,因为我需要它的项目对我来说有点重要

我得到了“wiki SPECIFICDATE pages articles.xml.bz2”文件,我需要将其用作获取单个文章的源代码。有谁能给我一些正确实现这一点的建议,或者更好的是,指向一些文档?我找不到


(顺便说一句,如果你有更好、正确的文档库,请告诉我)

不确定我是否理解这个问题,但是如果你有维基百科转储,需要解析维基代码,我建议使用文档库

另一个强大的框架是,这是维基百科上机器人用户的历史框架(因此,它有许多专用于编写页面的脚本,而不是阅读和解析文章)。它有很多文档(尽管有时已经过时),并且使用MediaWiki API


当然,您可以同时使用它们:PWB用于获取文章,mwparserfromhell用于解析

你看过他们的命令行客户端吗?我用它把维基百科转换成纯文本。它可以很容易地修改以获取任何文章。只需调试一篇文章的处理,您将看到在何处插入用于获取的正则表达式匹配项。