在Python中处理格式错误的XML
必须处理一堆格式不正确的XML文件。 它们的格式不正确,因为在许多子级中,属性名称有一个空白:在Python中处理格式错误的XML,python,xml-parsing,Python,Xml Parsing,必须处理一堆格式不正确的XML文件。 它们的格式不正确,因为在许多子级中,属性名称有一个空白: <...> <bar attr1="..." attr xy="..."> foo </bar> </...> 据我所知,它被解释为遗漏值的属性) 我知道在解析之前可能会替换错误的内容。使用beautiful soup,或者使用带有beautiful soup后端的lxml。然而,请注意,BeautifulSoup可能
<...>
<bar attr1="..." attr xy="...">
foo
</bar>
</...>
据我所知,它被解释为遗漏值的属性)
我知道在解析之前可能会替换错误的内容。使用beautiful soup,或者使用带有beautiful soup后端的lxml。然而,请注意,BeautifulSoup可能会将“attributename”解析为两个属性,其中包含一个空格 另一种方法是首先使用正则表达式修复输入
cElementTree.ParseError: not well-formed (invalid token): line 435, column 214