在Python中使用LXML解析HTML

在Python中使用LXML解析HTML,python,html,parsing,html-parsing,lxml,Python,Html,Parsing,Html Parsing,Lxml,我正在尝试解析的网站 blahblahblah <a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a> blahblahblah blahblahblah 布拉布拉布拉赫 (其中有很多,我希望所有这些都以某种标记形式出现)。不幸的是,HTML非常大,而且有点复杂,所以尝试爬树可能需要一些时间来整理嵌套元素。有没有一个简单的方法来检索这个 谢谢 如果您只需要a

我正在尝试解析的网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 
blahblahblah
布拉布拉布拉赫
(其中有很多,我希望所有这些都以某种标记形式出现)。不幸的是,HTML非常大,而且有点复杂,所以尝试爬树可能需要一些时间来整理嵌套元素。有没有一个简单的方法来检索这个


谢谢

如果您只需要
a
标签的href,请使用:

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']
data=“”blahblahblah
布拉布拉布拉赫
导入lxml.html
tree=lxml.html.fromstring(数据)
print tree.xpath('//a/@href')
#[“这就是我想要的”]

究竟是什么问题?您可以使用
.attrib
属性获取元素属性,例如
elem.attrib['href']
。如果lxml在源代码上中断,请尝试BeautifulSoup。//a/@href做什么?在我的例子中,a和href之间有两个空格,而不是一个。