Python 解析MediaWiki wiki的XML转储_Python_Xml_Elementtree_Wiktionary_Wikimedia Dumps

Python 解析MediaWiki wiki的XML转储

python xml

Python 解析MediaWiki wiki的XML转储,python,xml,elementtree,wiktionary,wikimedia-dumps,Python,Xml,Elementtree,Wiktionary,Wikimedia Dumps,我试图解析Wiktionary的XML转储，但可能我遗漏了一些东西，因为我并没有得到任何输出这是一个类似但更短的xml文件： <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/ http://w

我试图解析Wiktionary的XML转储，但可能我遗漏了一些东西，因为我并没有得到任何输出

这是一个类似但更短的xml文件：

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/ http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="it">    
 <page>
    <title>bigoto</title>
    <ns>0</ns>
    <id>24840</id>
    <revision>
      <id>1171207</id>
      <parentid>743817</parentid>
      <timestamp>2011-12-18T19:26:42Z</timestamp>
      <contributor>
        <username>GnuBotmarcoo</username>
        <id>14353</id>
      </contributor>
      <minor />
      <comment>[[Wikizionario:Bot|Bot]]: Sostituisco template {{[[Template:in|in]]}}</comment>
      <text xml:space="preserve">== wikimarkups ==</text>
      <sha1>gji6wqnsy6vi1ro8887t3bikh7nb3fr</sha1>
      <model>wikitext</model>
      <format>text/x-wiki</format>
    </revision>
 </page>
</mediawiki>

我建议您尽可能地使用它，因为它非常容易使用

从bs4导入美化组作为BS
#将html作为变量“html”
soup=BS（html，“xml”）
pages=soup.find_all（'page'））
对于页面中的页面：
如果page.ns.text==“0”：
打印page.title.text

据我所知，无需使用

int

将

标记转换为整数，以便与

==0

进行比较。与字符串

'0'

相比，这也同样有效——在本例中更容易，因为您根本不需要处理转换。

这适用于小xml文件。但是当我解析长（128mb）xml转储时，脚本崩溃了。。。或者在列表中，我认为它崩溃了，因为它在两个多小时后没有完成工作。有什么策略可以让它在非常大的文件上工作吗？啊，BeautifulSoup在处理大文件时确实非常慢——在这种情况下，您可能需要使用

lxml

。您可以试一试在

lxml

XML解析器上运行BeautifulSoup——我已经更新了我的响应，以展示如何在BeautifulSoup构造函数中实现这一点，添加

“XML”

作为第二个参数。现在，我得到了错误

类型错误：不支持的操作数类型对于+：'NoneType'和

'str'，此行为：soup=

BS（打开（“itwiktionary-20130507-pages-articles.xml”），“xml”）

。我做错了什么吗？是的，你应该是开放的（“itwiktionary-20130507-pages-articles.xml”，“r”），但你可能应该把这些问题作为另一个问题来问。由于已知的BS错误，

TypeError:不支持的操作数类型，…

。我解决了它。不过，这份文件对英国广播公司来说似乎太大了。它不断地崩溃。

import xml.etree.ElementTree as ET
tree = ET.parse('test.xml')
root = tree.getroot()

for page in root.findall('page'):
  ns = int(page.find('ns').text)
  word = page.find('title').text
  if ns == 0:
      print word