Python解析html不匹配的标记错误

Python解析html不匹配的标记错误,python,html,parsing,Python,Html,Parsing,它表明 xml.etree.ElementTree.ParseError:不匹配的标记:第32行第18列 我不知道出了什么问题?您正试图用XML解析器解析HTML;后者没有没有没有结束标记的概念 使用实际的HTML解析器;如果您想使用与ElementTree兼容的API访问结果,请使用lxml项目,该项目将。否则,请使用(可以在引擎盖下使用lxml作为解析引擎)。您正在尝试使用XML解析器解析HTML;后者没有没有没有结束标记的概念 使用实际的HTML解析器;如果您想使用与ElementTree

它表明

xml.etree.ElementTree.ParseError:不匹配的标记:第32行第18列


我不知道出了什么问题?

您正试图用XML解析器解析HTML;后者没有没有没有结束标记的
概念


使用实际的HTML解析器;如果您想使用与ElementTree兼容的API访问结果,请使用
lxml
项目,该项目将。否则,请使用(可以在引擎盖下使用
lxml
作为解析引擎)。

您正在尝试使用XML解析器解析HTML;后者没有没有没有结束标记的
概念


使用实际的HTML解析器;如果您想使用与ElementTree兼容的API访问结果,请使用
lxml
项目,该项目将。否则,使用(可以在引擎盖下使用
lxml
作为解析引擎)。

要在Python中解析HTML,我使用lxml:

uh = open('1.htm','r')
data = uh.read()
print data  
tree = ET.fromstring(data)

要在Python中解析HTML,我使用lxml:

uh = open('1.htm','r')
data = uh.read()
print data  
tree = ET.fromstring(data)
import lxml.html
// html string
dom = '<li class="start_1">...</li>'
// get the root node
root_node = lxml.html.fromstring(dom)
nodes = root_node.xpath("//*")