使用lxml用python解析Html_Python_Html Parsing_Lxml

使用lxml用python解析Html

python

使用lxml用python解析Html,python,html-parsing,lxml,Python,Html Parsing,Lxml,我有这个html页面： <html> <head></head> <body> Some Text <a href="aLink"> Other Text </a> <a href="aLink2.html"> Another Text </a> &l

我有这个html页面：

<html>
    <head></head>
    <body>
        Some Text
        <a href="aLink">
            Other Text
        </a>
        <a href="aLink2.html">
            Another Text
        </a>
    </body>
</html>

但我无法从正文部分获取文本，因为以下代码不起作用：

     body = tree.xpath('//body')
     print body.text

我该怎么办？感谢您的回答

您应该重新考虑使用lxml解析html（不一定是xml）。我建议您改用BeautifulSoup。试试

tree=html.fromstring（page.text）.getroot（）

@Paco如果安装了lxml，那么BeautifulSoup无论如何都会使用

lxml.html

的解析器，所以这有点毫无意义point@JonClements我得到这个错误：“AttributeError:'HtmleElement'对象没有属性'getroot'”@用户2567853是的，别理我-大脑打嗝。给定一个测试的文档

其他东西

，那么

tree.xpath（'//body/*/text（）'）

应该可以正常工作（作为一个例子，但不能完全确定您要做什么）

     body = tree.xpath('//body')
     print body.text