Python 如何使用lxml获取数据_Python_Scrape

Python 如何使用lxml获取数据

python

Python 如何使用lxml获取数据,python,scrape,Python,Scrape,我想刮取一页的文件： <body class="body_class" style="background:#444;"> <div class="data" id="id"> <div id="images" style="cursor: auto;"> <img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1"> <p clas

我想刮取一页的文件：

<body class="body_class" style="background:#444;">
<div class="data" id="id">
<div id="images" style="cursor: auto;">
<img id="page-1" src="image1.jpg" data-index="1" style="" data-bd-imgshare binded="1">
<p class="img_info">(1/14)</p>
</div>
</div>
</body>

它失败了。如何获取数据

谢谢。

您正在寻找文本“image1.jpg”作为数据吗？如果是这样，那么只需使用这个xpath

//div[@id=“images”]/@src

如果您想使用src中的地址下载图像，您可以使用

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")

仍然无法获取数据。我包括了更多的html代码。如何修改xpath？使用这行

a=tree.xpath（'//div[@id=“images”]/@src'）

而不是这行

a=tree.xpath（'//div[@id=“images”]/src/text（））

我尝试了这两种方法。我得到了相同的结果，一个空列表。可能您没有直接从源代码中获取图像。简而言之，您在inspect控制台中看到的不一定是您得到的。因此，在chrome上按“ctrl+U”可以在源代码中找到此图像标记。您将获得页面的原始源代码。尝试在该页面中查找相同的图像。

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", 
"00000001.jpg")