python xml.dom解析问题

python xml.dom解析问题,python,xml,html-parsing,Python,Xml,Html Parsing,我正在编写一个程序,其中第一步是获取URL地址并打开页面。然后将内容放入xml.dom.minidom解析器: from xml.dom.minidom import parse page = urllib2.urlopen(page_url) parser = parse(page) 问题是很多页面都有不匹配的标记和特殊字符,因此解析方法会产生错误。如果存在任何而不是 我试着这样做: from xml.dom.minidom import parseString page = urlli

我正在编写一个程序,其中第一步是获取
URL
地址并打开页面。然后将内容放入
xml.dom.minidom
解析器:

from xml.dom.minidom import parse

page = urllib2.urlopen(page_url)
parser = parse(page)
问题是很多页面都有不匹配的标记和特殊字符,因此解析方法会产生错误。如果存在任何

而不是

我试着这样做:

from xml.dom.minidom import parseString

page = urllib2.urlopen(page_url)
data = ""
for line in page.readlines():
    data += str(line.replace("<br>", "<br />").replace(OTHER).replace...)
parser = parse(data)
从xml.dom.minidom导入解析字符串
page=urlib2.urlopen(page_url)
data=“”
对于第页中的行。readlines():
data+=str(行。替换(“
”,“
”)。替换(其他)。替换…) parser=parse(数据)
但是,这不是一个好的解决方案

那么,是否有任何库对不匹配的标记和html代码中的其他错误不太敏感?

我更喜欢,它非常健壮,
lxml
通常速度非常快,具有非常好的功能,包括


不行。o yea和lxml没有.html包(只有lxml.parse),可能您使用的是旧版本。
import lxml.html

doc = lxml.html.parse('http://example.com')