我需要python中提取元标记值的lxml语句的帮助
我需要帮助修复此lxml语句以提取: 链接的头部部分我需要python中提取元标记值的lxml语句的帮助,python,html-parsing,lxml,Python,Html Parsing,Lxml,我需要帮助修复此lxml语句以提取: 链接的头部部分 #这行不通! # def extract_imageurl(self,doc): 尝试: self.url,=doc.xpath('//head//link[@rel=“image\u src”][1]/@href') 除值错误外: self.url=“错误” 谢谢 注意xpath返回节点列表: In [25]: doc.xpath('//head/link') Out[25]: [<Element link at 9c94c5c
#这行不通!
#
def extract_imageurl(self,doc):
尝试:
self.url,=doc.xpath('//head//link[@rel=“image\u src”][1]/@href')
除值错误外:
self.url=“错误”
谢谢
注意xpath
返回节点列表:
In [25]: doc.xpath('//head/link')
Out[25]: [<Element link at 9c94c5c>, <Element link at 9c94b6c>]
注意
xpath
返回节点列表:
In [25]: doc.xpath('//head/link')
Out[25]: [<Element link at 9c94c5c>, <Element link at 9c94b6c>]
我得到这个错误:文件“yfrogparser.py”,第101行,在extract\u imageurl self.url中,=doc.xpath('//head/link[@rel=“image\u src”]')[0]索引器:列表索引超出范围我得到这个错误:文件“yfrogparser.py”,第101行,在extract\u imageurl self.url中,=doc.xpath('//head/link[@rel=“image\u src”]])[0]索引器:列表索引超出范围
In [25]: doc.xpath('//head/link')
Out[25]: [<Element link at 9c94c5c>, <Element link at 9c94b6c>]
In [29]: doc.xpath('//head/link[@rel="image_src"]')[0]
Out[29]: <Element link at 9c94c5c>
import lxml.html as lh
import urllib2
url=r'http://www.yfrog.com/9d1truj'
doc=lh.parse(urllib2.urlopen(url))
link=doc.xpath('//head/link[@rel="image_src"]/@href')[0]
print(link)
# http://img337.yfrog.com/img337/5023/1tru.jpg