在Python中读取页面并使用minidom.parse或minidom.parseString对其进行解析?
我有以下任一代码:在Python中读取页面并使用minidom.parse或minidom.parseString对其进行解析?,python,Python,我有以下任一代码: import urllib from xml.dom import minidom res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10') dom = minidom.parse(res) 这给了我错误xml.parsers.expat.expat错误:语法错误:第1行第0列 或者这个: import urllib from xml.dom import minidom res =
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parse(res)
这给了我错误xml.parsers.expat.expat错误:语法错误:第1行第0列
或者这个:
import urllib
from xml.dom import minidom
res = urllib.urlopen('https://www.google.com/webhp#q=apple&start=10')
dom = minidom.parseString(res.read())
这给了我同样的错误res.read()
读起来很好,是一个字符串
我想稍后解析代码。如何使用
xml.dom.minidom
执行此操作?出现此错误的原因是页面不是有效的xml。是HTML5。顶部右侧的doctype
告诉您这一点,即使您忽略了内容类型。不能使用XML解析器解析HTML*
如果您想使用STDLIB中的内容,可以使用(Python 3。x)/(2。x)**但是,您可能需要考虑第三方库,例如“代码> LXML X/CODE >(尽管有名称,可以解析HTML),<代码> HTML5LIB < /代码>,或<代码> BeautifulSoup < /C> >(它在一个非常好的接口中封装了一个较低级别的解析器)。 *除非是XHTML或HTML5的XML输出,但这里不是这样
**不要使用
htmlib
,除非您使用的是旧版本的Python,而没有可用的HTMLParser
。此模块被弃用是有原因的。出现此错误的原因是页面不是有效的XML。是HTML5。顶部右侧的doctype
告诉您这一点,即使您忽略了内容类型。不能使用XML解析器解析HTML*
如果您想使用STDLIB中的内容,可以使用(Python 3。x)/(2。x)**但是,您可能需要考虑第三方库,例如“代码> LXML X/CODE >(尽管有名称,可以解析HTML),<代码> HTML5LIB < /代码>,或<代码> BeautifulSoup < /C> >(它在一个非常好的接口中封装了一个较低级别的解析器)。 *除非是XHTML或HTML5的XML输出,但这里不是这样
**不要使用
htmlib
,除非您使用的是旧版本的Python,而没有可用的HTMLParser
。此模块因某种原因被弃用。是否使用xml.dom.minidom
作为要求,或者您愿意使用其他模块?相信我,您应该做一个转换:)xml.dom.minidom的文档做了我需要做的一切。我更喜欢使用标准库,除非确实需要这样做。我看到了很多关于BeautifulSoup
的建议,但是如果xml.dom.minidom
工作正常,我就没有用了。要解析网页,你应该使用HTML解析器而不是xml解析器。@pts好建议,我将尝试HTMLParser
@JVE999有很多BeautifulSoup
建议,因为它确实使html解析变得简单直观。这将节省您的时间并使网络抓取变得有趣。使用xml.dom.minidom
是一项要求,还是您愿意使用其他模块?相信我,您应该做一个转换:)xml.dom.minidom的文档做了我需要做的一切。我更喜欢使用标准库,除非确实需要这样做。我看到了很多关于BeautifulSoup
的建议,但是如果xml.dom.minidom
工作正常,我就没有用了。要解析网页,你应该使用HTML解析器而不是xml解析器。@pts好建议,我将尝试HTMLParser
@JVE999有很多BeautifulSoup
建议,因为它确实使html解析变得简单直观。这将节省您的时间并使网页抓取变得有趣。以下是一个描述使用HTMLParser
解析HTML的SO答案供参考:以下是一个描述使用HTMLParser
解析HTML的SO答案供参考: