在Python中处理格式错误的XML_Python_Xml Parsing

在Python中处理格式错误的XML

python

在Python中处理格式错误的XML,python,xml-parsing,Python,Xml Parsing,必须处理一堆格式不正确的XML文件。它们的格式不正确，因为在许多子级中，属性名称有一个空白： <...> <bar attr1="..." attr xy="..."> foo </bar> </...> 据我所知，它被解释为遗漏值的属性）我知道在解析之前可能会替换错误的内容。使用beautiful soup，或者使用带有beautiful soup后端的lxml。然而，请注意，BeautifulSoup可能

必须处理一堆格式不正确的XML文件。它们的格式不正确，因为在许多子级中，属性名称有一个空白：

<...>
    <bar attr1="..." attr xy="..."> 
        foo
    </bar>
</...>

据我所知，它被解释为遗漏值的属性）

我知道在解析之前可能会替换错误的内容。

使用beautiful soup，或者使用带有beautiful soup后端的lxml。然而，请注意，BeautifulSoup可能会将“attributename”解析为两个属性，其中包含一个空格

另一种方法是首先使用正则表达式修复输入

cElementTree.ParseError: not well-formed (invalid token): line 435, column 214