Python 如何使用lxml获取数据

Python 如何使用lxml获取数据,python,scrape,Python,Scrape,我想刮取一页的文件: <body class="body_class" style="background:#444;"> <div class="data" id="id"> <div id="images" style="cursor: auto;"> <img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1"> <p clas

我想刮取一页的文件:

<body class="body_class" style="background:#444;">
<div class="data" id="id">
<div id="images" style="cursor: auto;">
<img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1">
<p class="img_info">(1/14)</p>
</div>
</div>
</body>
它失败了。如何获取数据


谢谢。

您正在寻找文本“image1.jpg”作为数据吗? 如果是这样,那么只需使用这个xpath
//div[@id=“images”]/@src

如果您想使用src中的地址下载图像,您可以使用

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")

仍然无法获取数据。我包括了更多的html代码。如何修改xpath?使用这行
a=tree.xpath('//div[@id=“images”]/@src')
而不是这行
a=tree.xpath('//div[@id=“images”]/src/text())
我尝试了这两种方法。我得到了相同的结果,一个空列表。可能您没有直接从源代码中获取图像。简而言之,您在inspect控制台中看到的不一定是您得到的。因此,在chrome上按“ctrl+U”可以在源代码中找到此图像标记。您将获得页面的原始源代码。尝试在该页面中查找相同的图像。
import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")