在Python中处理格式错误的XML

在Python中处理格式错误的XML,python,xml-parsing,Python,Xml Parsing,必须处理一堆格式不正确的XML文件。 它们的格式不正确,因为在许多子级中,属性名称有一个空白: <...> <bar attr1="..." attr xy="..."> foo </bar> </...> 据我所知,它被解释为遗漏值的属性) 我知道在解析之前可能会替换错误的内容。使用beautiful soup,或者使用带有beautiful soup后端的lxml。然而,请注意,BeautifulSoup可能

必须处理一堆格式不正确的XML文件。 它们的格式不正确,因为在许多子级中,属性名称有一个空白:

<...>
    <bar attr1="..." attr xy="..."> 
        foo
    </bar>
</...>
据我所知,它被解释为遗漏值的属性)


我知道在解析之前可能会替换错误的内容。

使用beautiful soup,或者使用带有beautiful soup后端的lxml。然而,请注意,BeautifulSoup可能会将“attributename”解析为两个属性,其中包含一个空格

另一种方法是首先使用正则表达式修复输入

cElementTree.ParseError: not well-formed (invalid token): line 435, column 214