使用ElementTree解析Python中的嵌套XML数据更新：迈向解决方案_Python_Xml_Elementtree

使用ElementTree解析Python中的嵌套XML数据更新：迈向解决方案

python xml

使用ElementTree解析Python中的嵌套XML数据更新：迈向解决方案,python,xml,elementtree,Python,Xml,Elementtree,此代码： tree = ET.parse(assetsfilename) root = tree.getroot() assets = {} def find_rows(rowset, container): for row in rowset.findall("row"): singleton = int((row.get('singleton'))) flag = int((row.get('flag'))) qu

此代码：

tree = ET.parse(assetsfilename)
root = tree.getroot()
assets = {}

def find_rows(rowset, container):
    for row in rowset.findall("row"):
        singleton = int((row.get('singleton')))
        flag = int((row.get('flag')))
        quantity = int((row.get('quantity')))
        typeID = int((row.get('typeID')))
        locationID = int((row.get('locationID', '0')))
        itemID = int((row.get('itemID')))
        dkey = (singleton, flag, quantity, typeID, locationID, itemID)

        container[dkey] = {}
        child_rowset = row.find("rowset")
        if child_rowset is not None:
            find_rows(child_rowset, container[dkey])

first_rowset = root.find('.//rowset[@name="assets"]')
find_rows(first_rowset, assets)
#print singleton, flag, quantity, typeID, locationID, itemID
pp = pprint.PrettyPrinter(indent=4)
pp.pprint(assets)

给出此输出：

{   (0, 4, 1, 3317, 61000419, 1000913922710L): {   },
    (0, 4, 1, 6159, 60003463, 1007025519384L): {   },
    (0, 4, 1, 7669, 60000361, 1007215573625L): {   },
    (0, 4, 1, 23566, 61000419, 1000992661686L): {   },
    (1, 4, 1, 51, 60001345, 1004073218074L): {   },
    (1, 4, 1, 51, 60001345, 1004073218075L): {   },
    (1, 4, 1, 596, 60003337, 1007908184113L): {   (0, 5, 1, 34, 0, 1007908184132
L): {   },
                                                  (1, 27, 1, 3634, 0, 1007908184
129L): {   },
                                                  (1, 28, 1, 3651, 0, 1007908184
130L): {   }},
    (1, 4, 1, 3766, 61000419, 1000973178550L): {   (0, 5, 25, 16273, 0, 10009731
88870L): {   },
                                                   (1, 27, 1, 21096, 0, 10006872
93796L): {   }}}

这基本上是在我已经拥有的dict的末尾添加一个嵌套dict，并用来自子dict的数据（如果存在）填充它。但是，理想情况下，父数据和子数据都将位于主dict中，dict末尾的额外字段将包含父数据的itemID（如果该行是子行）或为空（如果该项是父行或没有任何子行）

问题我试图将嵌套的.xml文件中的数据读入某种字典，以便以其他格式输出它（我当前的目标是sqlite3和sqlite.db文件，但这不是我问题的重点。）我可以读取所有主要级别的数据，但我不知道如何也读取嵌套数据（如果存在）

数据下面是一个示例.xml文件：

<?xml version='1.0' encoding='UTF-8'?>
<eveapi version="2">
  <currentTime>2012-11-14 03:26:35</currentTime>
  <result>
    <rowset name="assets" key="itemID" columns="itemID,locationID,typeID,quantity,flag,singleton">
      <row itemID="1007215573625" locationID="60000361" typeID="7669" quantity="1" flag="4" singleton="0" />
      <row itemID="1004073218074" locationID="60001345" typeID="51" quantity="1" flag="4" singleton="1" rawQuantity="-1" />
      <row itemID="1004073218075" locationID="60001345" typeID="51" quantity="1" flag="4" singleton="1" rawQuantity="-1" />
      <row itemID="1007908184113" locationID="60003337" typeID="596" quantity="1" flag="4" singleton="1" rawQuantity="-1">
        <rowset name="contents" key="itemID" columns="itemID,typeID,quantity,flag,singleton">
          <row itemID="1007908184129" typeID="3634" quantity="1" flag="27" singleton="1" rawQuantity="-1" />
          <row itemID="1007908184130" typeID="3651" quantity="1" flag="28" singleton="1" rawQuantity="-1" />
          <row itemID="1007908184132" typeID="34" quantity="1" flag="5" singleton="0" />
        </rowset>
      </row>
      <row itemID="1007025519384" locationID="60003463" typeID="6159" quantity="1" flag="4" singleton="0" />
      <row itemID="1000913922710" locationID="61000419" typeID="3317" quantity="1" flag="4" singleton="0" />
      <row itemID="1000973178550" locationID="61000419" typeID="3766" quantity="1" flag="4" singleton="1" rawQuantity="-1">
        <rowset name="contents" key="itemID" columns="itemID,typeID,quantity,flag,singleton">
          <row itemID="1000687293796" typeID="21096" quantity="1" flag="27" singleton="1" rawQuantity="-1" />
          <row itemID="1000973188870" typeID="16273" quantity="25" flag="5" singleton="0" />
        </rowset>
      </row>
      <row itemID="1000992661686" locationID="61000419" typeID="23566" quantity="1" flag="4" singleton="0" />
    </rowset>
  </result>
  <cachedUntil>2012-11-14 07:05:29</cachedUntil>
</eveapi>

要在屏幕上输出此信息，请执行以下操作：

[0, 1, 1, 1, 0, 0, 1, 0] [4, 4, 4, 4, 4, 4, 4, 4] [1, 1, 1, 1, 1, 1, 1, 1] [7669
, 51, 51, 596, 6159, 3317, 3766, 23566] [60000361, 60001345, 60001345, 60003337,
 60003463, 61000419, 61000419, 61000419] [1007215573625L, 1004073218074L, 100407
3218075L, 1007908184113L, 1007025519384L, 1000913922710L, 1000973178550L, 100099
2661686L]
[(0, 4, 1, 7669, 60000361, 1007215573625L), (1, 4, 1, 51, 60001345, 100407321807
4L), (1, 4, 1, 51, 60001345, 1004073218075L), (1, 4, 1, 596, 60003337, 100790818
4113L), (0, 4, 1, 6159, 60003463, 1007025519384L), (0, 4, 1, 3317, 61000419, 100
0913922710L), (1, 4, 1, 3766, 61000419, 1000973178550L), (0, 4, 1, 23566, 610004
19, 1000992661686L)]

请注意，这是如何读取所有以

开头的主级别行的。此代码段（稍大一些）递归地将xml结构解析为嵌套字典，就像您描述的可能解决方案一样。它适用于您提供的示例，但我认为它适用于实时数据。如果没有别的，你可以使用这个想法
更新：好的，此更新版本将itemID存储为key，并将parent\u id添加为附加dict属性，如果这是所需的行为，请检查它：
import xml.etree.ElementTree as ET

from StringIO import StringIO
tree = ET.parse(StringIO(xml_data))
root = tree.getroot()

assets = {}

def find_rows(rowset, parent_id):
    for row in rowset.findall("row"):
        singleton = int((row.get('singleton')))
        flag = int((row.get('flag')))
        quantity = int((row.get('quantity')))
        typeID = int((row.get('typeID')))
        locationID = int((row.get('locationID', '0')))
        itemID = int((row.get('itemID')))

        assets[itemID] = {'singleton': singleton,
                          'flag': flag,
                          'quantity': quantity,
                          'typeID': typeID,
                          'locationID': locationID,
                          'parentID': parent_id}
        child_rowset = row.find("rowset")
        if child_rowset is not None:
            find_rows(child_rowset, itemID)

first_rowset = root.find('.//rowset[@name="assets"]')
find_rows(first_rowset, None)

这个片段（稍大一些）递归地将xml结构解析为嵌套字典，就像您描述的可能的解决方案一样。它适用于您提供的示例，但我认为它适用于实时数据。如果没有别的，你可以使用这个想法
更新：好的，此更新版本将itemID存储为key，并将parent\u id添加为附加dict属性，如果这是所需的行为，请检查它：
import xml.etree.ElementTree as ET

from StringIO import StringIO
tree = ET.parse(StringIO(xml_data))
root = tree.getroot()

assets = {}

def find_rows(rowset, parent_id):
    for row in rowset.findall("row"):
        singleton = int((row.get('singleton')))
        flag = int((row.get('flag')))
        quantity = int((row.get('quantity')))
        typeID = int((row.get('typeID')))
        locationID = int((row.get('locationID', '0')))
        itemID = int((row.get('itemID')))

        assets[itemID] = {'singleton': singleton,
                          'flag': flag,
                          'quantity': quantity,
                          'typeID': typeID,
                          'locationID': locationID,
                          'parentID': parent_id}
        child_rowset = row.find("rowset")
        if child_rowset is not None:
            find_rows(child_rowset, itemID)

first_rowset = root.find('.//rowset[@name="assets"]')
find_rows(first_rowset, None)

我已经更新了我的问题帖子，在顶部有一个章节介绍了如何尝试解决问题。这确实像你说的那样有效，但我希望字典中的额外字段是父母（如果有）的itemID，而不是添加所有孩子（如果有）的dict。if child\u行集：
行给出了一个警告FutureWarning:此方法的行为将在将来的版本中更改。请使用特定的“len（elem）”或“elem不是None”测试。
我将该行更改为，如果child_rowset不是None:
，它仍然有效，并且不会发出此警告。我已更新了我的问题帖子，在顶部添加了一个部分，以获取计划解决方案。这确实像你说的那样有效，但我希望字典中的额外字段是父母（如果有）的itemID，而不是添加所有孩子（如果有）的dict。if child\u行集：
行给出了一个警告FutureWarning:此方法的行为将在将来的版本中更改。改用特定的“len（elem）”或“elem不是None”测试。
我将该行更改为，如果子行集不是None:
，它仍然有效，并且不会发出此警告。