Web scraping lxml:将网页源代码转换为元素树进行刮取

Web scraping lxml:将网页源代码转换为元素树进行刮取,web-scraping,lxml,Web Scraping,Lxml,我是否遗漏了一些东西——lxml可以用于抓取网页,对吗?我是说,即使是那些没有完美html的?我用的是BeautifulSoup,但我希望更快 我发誓我读过文档,但我只是不知道如何将网页源转换成树。我读到的每一篇文章都在谈论从头开始创建树,一次创建一个元素 我知道 然后呢?顺便说一下,如果有帮助的话,我可以将源代码转换为unicode。您必须使用,这是一个专用的lxml程序包,用于处理HTML,详细信息见。顺便说一句,该包基于lxml的HTML解析器 插图 from lxml import et

我是否遗漏了一些东西——lxml可以用于抓取网页,对吗?我是说,即使是那些没有完美html的?我用的是BeautifulSoup,但我希望更快

我发誓我读过文档,但我只是不知道如何将网页源转换成树。我读到的每一篇文章都在谈论从头开始创建树,一次创建一个元素

我知道

然后呢?顺便说一下,如果有帮助的话,我可以将源代码转换为unicode。

您必须使用,这是一个专用的
lxml
程序包,用于处理HTML,详细信息见。顺便说一句,该包基于lxml的HTML解析器

插图

from lxml import etree, html

htmltree = html.parse(url)

print(etree.tostring(htmltree, pretty_print=True))
此外,您可能需要go,并了解其他人是如何利用该软件包的。

您必须使用,这是一个专用的
lxml
软件包,用于处理HTML,详见。顺便说一句,该包基于lxml的HTML解析器

插图

from lxml import etree, html

htmltree = html.parse(url)

print(etree.tostring(htmltree, pretty_print=True))

此外,您可能需要go,并了解其他人如何利用该包。

将HTML转换为元素树意味着对其进行解析。也许这就是您应该在文档中查找的单词?将HTML转换为元素树意味着对其进行解析。也许这就是你应该在文档中查找的单词?