Python 抓取图像链接的问题_Python_Css_Image_Scrapy_Web Crawler

Python 抓取图像链接的问题

python css image scrapy web-crawler

Python 抓取图像链接的问题,python,css,image,scrapy,web-crawler,Python,Css,Image,Scrapy,Web Crawler,我在www.ebay-kleinazeigen.de上构建了一个爬虫程序来抓取信息，但除了给定的标题、价格、描述和链接外，我没有获得提供房屋的图像链接我已经尝试过使用不同的属性，比如attr（href）、attr（src）、attr（data-imgsrc）……但似乎没有任何效果。我只得到div容器，甚至无法拆分这个div容器的内容导入 [……] 对于变量“image”，我希望得到jpg的链接，但得到以下结果： {[...] 'image': ['<div class="imageb

我在www.ebay-kleinazeigen.de上构建了一个爬虫程序来抓取信息，但除了给定的标题、价格、描述和链接外，我没有获得提供房屋的图像链接

我已经尝试过使用不同的属性，比如attr（href）、attr（src）、attr（data-imgsrc）……但似乎没有任何效果。我只得到div容器，甚至无法拆分这个div容器的内容

导入

[……]

对于变量“image”，我希望得到jpg的链接，但得到以下结果：

{[...]
 'image': ['<div class="imagebox srpimagebox" '
           'data-href="/s-anzeige/einfamilienhaus-freistehend-in-zentraler-lage/1252437848-208-7416" '
           'data-imgsrc="https://i.ebayimg.com/00/s/MTIwMFgxNjAw/z/CBYAAOSwWI1dyD6R/$_2.JPG" '
           'data-imgsrcretina="https://i.ebayimg.com/00/s/MTIwMFgxNjAw/z/CBYAAOSwWI1dyD6R/$_35.JPG '
           '2x" data-imgtitle="Einfamilienhaus freistehend in zentraler Lage '
           'Bayern - Großostheim Vorschau">\n'
           '                                    </div>'],
 [...]}

{[…]
'图像'：['\n'
'                                    '],
[...]}

所以我不确定如何解决这个问题，因为div容器对我来说太多了。奇怪的是，我无法处理这个字符串/列表

例如，我尝试获取此列表的元素[0]，然后尝试使用拆分，但没有成功

感谢您的反馈！：）

图像的KR、Markus链接位于所选div元素的两个属性中。即-@data imgsrcretina和@data imgsrc。那么，你为什么不从那里挑选呢

例如，下面的xpath适合我

>> image = immobilie.css("div.srpimagebox").xpath("@data-imgsrc").extract()
>> image = immobilie.css("div.srpimagebox").xpath("@data-imgsrcretina").extract() 
# take either of the above.

输出-

>> image
 [u'https://i.ebayimg.com/00/s/MTAyNFg3Njg=/z/IDUAAOSwimZdcQuw/$_2.JPG']

>> image
 [u'https://i.ebayimg.com/00/s/MTAyNFg3Njg=/z/IDUAAOSwimZdcQuw/$_2.JPG']