Mediawiki 有没有一种方法可以使用special:export自动下载维基百科文章？_Mediawiki_Wikipedia

Mediawiki 有没有一种方法可以使用special:export自动下载维基百科文章？

mediawiki

Mediawiki 有没有一种方法可以使用special:export自动下载维基百科文章？,mediawiki,wikipedia,Mediawiki,Wikipedia,我希望能够从下载几千篇文章的完整历史记录，我正在寻找一种编程方法来自动化它我用python开始了以下内容，但没有得到任何有用的结果 query = "http://en.wikipedia.org/w/index.api?title=Special:Export&pages=%s&history=1&action=submit" % 'Page_title_here' f = urllib.urlopen(query) s = f.read() 有什么建议吗？在页面数

我希望能够从下载几千篇文章的完整历史记录，我正在寻找一种编程方法来自动化它
我用python开始了以下内容，但没有得到任何有用的结果

query = "http://en.wikipedia.org/w/index.api?title=Special:Export&pages=%s&history=1&action=submit" % 'Page_title_here'
f = urllib.urlopen(query)
s = f.read()

有什么建议吗？

在

页面

数组中删除要下载的页面列表，这样应该可以。运行脚本，它将打印XML文件。请注意，维基百科似乎阻止了

urllib

用户代理，但我在页面上没有看到任何提示不允许自动下载的内容。使用风险自负

您还可以向字典中添加

“curonly”：1

，以仅获取当前版本

#!/usr/bin/python
import urllib

class AppURLopener(urllib.FancyURLopener):
    version = "WikiDownloader"
urllib._urlopener = AppURLopener()

query = "http://en.wikipedia.org/w/index.php?title=Special:Export&action=submit"
pages = ['Canada']
data = { 'catname':'', 'wpDownload':1, 'pages':"\n".join(pages)}
data = urllib.urlencode(data)
f = urllib.urlopen(query, data)
s = f.read()
print(s)

在

页面

数组中删除要下载的页面列表，这样应该可以工作。运行脚本，它将打印XML文件。请注意，维基百科似乎阻止了

urllib

用户代理，但我在页面上没有看到任何提示不允许自动下载的内容。使用风险自负

您还可以向字典中添加

“curonly”：1

，以仅获取当前版本

#!/usr/bin/python
import urllib

class AppURLopener(urllib.FancyURLopener):
    version = "WikiDownloader"
urllib._urlopener = AppURLopener()

query = "http://en.wikipedia.org/w/index.php?title=Special:Export&action=submit"
pages = ['Canada']
data = { 'catname':'', 'wpDownload':1, 'pages':"\n".join(pages)}
data = urllib.urlencode(data)
f = urllib.urlopen(query, data)
s = f.read()
print(s)

在最坏的情况下，您可以在这里下载所有内容的历史记录：（或者对于torrent）该文件将有多大？280GB，解压到5TB。但很快就会发布一个Python解决方案。最坏的情况下，您可以在这里下载所有内容的历史记录：（或对于torrent）该文件将有多大？280GB，解压缩到5TB。但很快就会发布Python解决方案。有关用户代理策略，请参阅。太好了！谢谢：）显然，上面指定的用户代理应该根据此策略进行更新。没问题。很高兴我能帮助：）请参阅用户代理策略。太好了！谢谢：）显然，上面指定的用户代理应该根据此策略进行更新。没问题。很高兴我能帮忙：）