Python 从Wikipedia数据库转储生成纯文本

Python 从Wikipedia数据库转储生成纯文本,python,xml,database,shell,wikipedia,Python,Xml,Database,Shell,Wikipedia,我发现了一个Python脚本(),它可以从中生成纯文本。 使用此命令时(如脚本页面上所述): 我得到这个错误: 文件“enwiki latest pages articles.xml”,第1行 我正在Windows7上使用Python2.7.6和Cygwin执行脚本 我希望如果有人已经使用过这个脚本或者有过Python的经验,可以帮助我解决这个错误 提前谢谢 python的第一个参数应该是脚本名 您可能需要交换xml和py文件名: $ python WikiExtractor.py enwik

我发现了一个Python脚本(),它可以从中生成纯文本。 使用此命令时(如脚本页面上所述):

我得到这个错误:

文件“enwiki latest pages articles.xml”,第1行

我正在Windows7上使用Python2.7.6和Cygwin执行脚本

我希望如果有人已经使用过这个脚本或者有过Python的经验,可以帮助我解决这个错误


提前谢谢

python的第一个参数应该是脚本名

您可能需要交换
xml
py
文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted

谢谢你的回复。虽然正如脚本页面中所述,正确的顺序是我使用的,但我尝试了您的建议,得到了这样的结果:“用法:WikiExtractor.py[options]”,这意味着文件名应该排在第一位。@Asim我认为您几乎是对的-就文件内容而言,应该通过管道传输到wiki提取器,比如
cat-enwiki-latest-pages-articles.xml | python-WikiExtractor.py-b 500K-o extracted
。试试看。哇,终于成功了!非常感谢,我真的很感激。ASIM请考虑接受这个答案,谢谢。
^
SyntaxError: invalid syntax
$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted