Python xml.etree.ElementTree解析前斜杠_Python_Xml_Xml Parsing_Elementtree

Python xml.etree.ElementTree解析前斜杠

python xml

Python xml.etree.ElementTree解析前斜杠,python,xml,xml-parsing,elementtree,Python,Xml,Xml Parsing,Elementtree,我试图使用XML.etree.ElementTree模块在python中解析Stanford CoreNLP返回的XML，但我似乎一直遇到这个错误以下是我得到的错误： File "my_script.py", line 5 root = ET.fromstring(content) File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py",

我试图使用XML.etree.ElementTree模块在python中解析Stanford CoreNLP返回的XML，但我似乎一直遇到这个错误

以下是我得到的错误：

File "my_script.py", line 5
    root = ET.fromstring(content)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1300, in XML
    parser.feed(text)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1642, in feed
    self._raiseerror(v)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1506, in _raiseerror
    raise err
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 4473, column 19

我查看了XML文件第4473行的内容：

<word>5 1/2</word>

我认为您的问题在xml文件的其他地方。如果我使用像5 1/2这样的简单XML文件，您的代码就可以正常工作。如果我的XML是这样的话，是的，问题一定是别的。在XML元素的内容中使用正斜杠非常好。我发现问题在于5和1之间的空格字符是不间断空格字符\u00a0，而不是空格字符\u0020。我还读取了名为ISO-8859-2的编码中的xml字符串

import xml.etree.ElementTree as ET
f = open("samplefiles/samplefile999.txt.xml","r");
content = f.read()
f.close();
root = ET.fromstring(content)