在Python中使用LXML解析HTML_Python_Html_Parsing_Html Parsing_Lxml

在Python中使用LXML解析HTML

python html parsing

在Python中使用LXML解析HTML,python,html,parsing,html-parsing,lxml,Python,Html,Parsing,Html Parsing,Lxml,我正在尝试解析的网站 blahblahblah <a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a> blahblahblah blahblahblah 布拉布拉布拉赫（其中有很多，我希望所有这些都以某种标记形式出现）。不幸的是，HTML非常大，而且有点复杂，所以尝试爬树可能需要一些时间来整理嵌套元素。有没有一个简单的方法来检索这个谢谢如果您只需要a

我正在尝试解析的网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

blahblahblah
布拉布拉布拉赫

（其中有很多，我希望所有这些都以某种标记形式出现）。不幸的是，HTML非常大，而且有点复杂，所以尝试爬树可能需要一些时间来整理嵌套元素。有没有一个简单的方法来检索这个

谢谢

如果您只需要

标签的href，请使用：

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

data=“”blahblahblah
布拉布拉布拉赫
导入lxml.html
tree=lxml.html.fromstring（数据）
print tree.xpath（'//a/@href'）
#[“这就是我想要的”]

究竟是什么问题？您可以使用

.attrib

属性获取元素属性，例如

elem.attrib['href']

。如果lxml在源代码上中断，请尝试BeautifulSoup。//a/@href做什么？在我的例子中，a和href之间有两个空格，而不是一个。