使用lxml用python解析Html

使用lxml用python解析Html,python,html-parsing,lxml,Python,Html Parsing,Lxml,我有这个html页面: <html> <head></head> <body> Some Text <a href="aLink"> Other Text </a> <a href="aLink2.html"> Another Text </a> &l

我有这个html页面:

<html>
    <head></head>
    <body>
        Some Text
        <a href="aLink">
            Other Text
        </a>
        <a href="aLink2.html">
            Another Text
        </a>
    </body>
</html>
但我无法从正文部分获取文本,因为以下代码不起作用:

     body = tree.xpath('//body')
     print body.text

我该怎么办?感谢您的回答

您应该重新考虑使用lxml解析html(不一定是xml)。我建议您改用BeautifulSoup。试试
tree=html.fromstring(page.text).getroot()
@Paco如果安装了lxml,那么BeautifulSoup无论如何都会使用
lxml.html
的解析器,所以这有点毫无意义point@JonClements我得到这个错误:“AttributeError:'HtmleElement'对象没有属性'getroot'”@用户2567853是的,别理我-大脑打嗝。给定一个测试的文档

其他东西

,那么
tree.xpath('//body/*/text()')
应该可以正常工作(作为一个例子,但不能完全确定您要做什么)
     body = tree.xpath('//body')
     print body.text