Python 解析MediaWiki wiki的XML转储
我试图解析Wiktionary的XML转储,但可能我遗漏了一些东西,因为我并没有得到任何输出 这是一个类似但更短的xml文件:Python 解析MediaWiki wiki的XML转储,python,xml,elementtree,wiktionary,wikimedia-dumps,Python,Xml,Elementtree,Wiktionary,Wikimedia Dumps,我试图解析Wiktionary的XML转储,但可能我遗漏了一些东西,因为我并没有得到任何输出 这是一个类似但更短的xml文件: <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/ http://w
<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/ http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="it">
<page>
<title>bigoto</title>
<ns>0</ns>
<id>24840</id>
<revision>
<id>1171207</id>
<parentid>743817</parentid>
<timestamp>2011-12-18T19:26:42Z</timestamp>
<contributor>
<username>GnuBotmarcoo</username>
<id>14353</id>
</contributor>
<minor />
<comment>[[Wikizionario:Bot|Bot]]: Sostituisco template {{[[Template:in|in]]}}</comment>
<text xml:space="preserve">== wikimarkups ==</text>
<sha1>gji6wqnsy6vi1ro8887t3bikh7nb3fr</sha1>
<model>wikitext</model>
<format>text/x-wiki</format>
</revision>
</page>
</mediawiki>
我建议您尽可能地使用它,因为它非常容易使用
从bs4导入美化组作为BS
#将html作为变量“html”
soup=BS(html,“xml”)
pages=soup.find_all('page'))
对于页面中的页面:
如果page.ns.text==“0”:
打印page.title.text
据我所知,无需使用
int
将
标记转换为整数,以便与==0
进行比较。与字符串'0'
相比,这也同样有效——在本例中更容易,因为您根本不需要处理转换。这适用于小xml文件。但是当我解析长(128mb)xml转储时,脚本崩溃了。。。或者在列表中,我认为它崩溃了,因为它在两个多小时后没有完成工作。有什么策略可以让它在非常大的文件上工作吗?啊,BeautifulSoup在处理大文件时确实非常慢——在这种情况下,您可能需要使用lxml
。您可以试一试在lxml
XML解析器上运行BeautifulSoup——我已经更新了我的响应,以展示如何在BeautifulSoup构造函数中实现这一点,添加“XML”
作为第二个参数。现在,我得到了错误类型错误:不支持的操作数类型对于+:'NoneType'和
'str',此行为:soup=BS(打开(“itwiktionary-20130507-pages-articles.xml”),“xml”)
。我做错了什么吗?是的,你应该是开放的(“itwiktionary-20130507-pages-articles.xml”,“r”),但你可能应该把这些问题作为另一个问题来问。由于已知的BS错误,TypeError:不支持的操作数类型,…
。我解决了它。不过,这份文件对英国广播公司来说似乎太大了。它不断地崩溃。
import xml.etree.ElementTree as ET
tree = ET.parse('test.xml')
root = tree.getroot()
for page in root.findall('page'):
ns = int(page.find('ns').text)
word = page.find('title').text
if ns == 0:
print word