python xml.dom解析问题_Python_Xml_Html Parsing

python xml.dom解析问题

python xml

python xml.dom解析问题,python,xml,html-parsing,Python,Xml,Html Parsing,我正在编写一个程序，其中第一步是获取URL地址并打开页面。然后将内容放入xml.dom.minidom解析器： from xml.dom.minidom import parse page = urllib2.urlopen(page_url) parser = parse(page) 问题是很多页面都有不匹配的标记和特殊字符，因此解析方法会产生错误。如果存在任何而不是我试着这样做： from xml.dom.minidom import parseString page = urlli

我正在编写一个程序，其中第一步是获取

URL

地址并打开页面。然后将内容放入

xml.dom.minidom

解析器：

from xml.dom.minidom import parse

page = urllib2.urlopen(page_url)
parser = parse(page)

问题是很多页面都有不匹配的标记和特殊字符，因此解析方法会产生错误。如果存在任何

而不是

我试着这样做：

from xml.dom.minidom import parseString

page = urllib2.urlopen(page_url)
data = ""
for line in page.readlines():
    data += str(line.replace("<br>", "<br />").replace(OTHER).replace...)
parser = parse(data)

从xml.dom.minidom导入解析字符串
page=urlib2.urlopen（page_url）
data=“”
对于第页中的行。readlines（）：
data+=str（行。替换（“
”，“
”）。替换（其他）。替换…）
parser=parse（数据）

但是，这不是一个好的解决方案

那么，是否有任何库对不匹配的标记和html代码中的其他错误不太敏感？

我更喜欢，它非常健壮，

lxml

通常速度非常快，具有非常好的功能，包括

不行。o yea和lxml没有.html包（只有lxml.parse），可能您使用的是旧版本。

import lxml.html

doc = lxml.html.parse('http://example.com')