使用lxml用python解析Html
我有这个html页面:使用lxml用python解析Html,python,html-parsing,lxml,Python,Html Parsing,Lxml,我有这个html页面: <html> <head></head> <body> Some Text <a href="aLink"> Other Text </a> <a href="aLink2.html"> Another Text </a> &l
<html>
<head></head>
<body>
Some Text
<a href="aLink">
Other Text
</a>
<a href="aLink2.html">
Another Text
</a>
</body>
</html>
但我无法从正文部分获取文本,因为以下代码不起作用:
body = tree.xpath('//body')
print body.text
我该怎么办?感谢您的回答您应该重新考虑使用lxml解析html(不一定是xml)。我建议您改用BeautifulSoup。试试
tree=html.fromstring(page.text).getroot()
@Paco如果安装了lxml,那么BeautifulSoup无论如何都会使用lxml.html
的解析器,所以这有点毫无意义point@JonClements我得到这个错误:“AttributeError:'HtmleElement'对象没有属性'getroot'”@用户2567853是的,别理我-大脑打嗝。给定一个测试的文档其他东西,那么tree.xpath('//body/*/text()')
应该可以正常工作(作为一个例子,但不能完全确定您要做什么)
body = tree.xpath('//body')
print body.text