Python 如何通过lxmlxpath从HTML中提取imgsrc？_Python_Html_Xpath_Web Scraping_Lxml

Python 如何通过lxmlxpath从HTML中提取imgsrc？

python html xpath web-scraping

Python 如何通过lxmlxpath从HTML中提取imgsrc？,python,html,xpath,web-scraping,lxml,Python,Html,Xpath,Web Scraping,Lxml,我试图使用python/lxml和xpath（）命令提取图像URl，但在隔离URl本身时遇到了问题下面是我想要的imgsrc周围的HTML： <div data-index="0" data-za-action="Photo Lightbox - Open" data-za- category="Homes" class="img-wrapper za-track-event zsg-lightbox-show" data-target-id="hdp-photo-lightbox"

我试图使用python/lxml和

xpath（）

命令提取图像URl，但在隔离URl本身时遇到了问题

下面是我想要的

img

src

周围的HTML：

<div data-index="0" data-za-action="Photo Lightbox - Open" data-za-
category="Homes" class="img-wrapper za-track-event zsg-lightbox-show" 
data-target-id="hdp-photo-lightbox" data-za-label="position: 0, total: 
18, id: 10660534745" id="yui_3_18_1_2_1519884476676_1986"><img 
src="https://photos.zillowstatic.com/p_h/IS2fordnekys6d1000000000.jpg" 
onload="if (typeof ClientProfiler !== 'undefined') { 
ClientProfiler.profile('HDPFirstPhotoLoaded') }" id="X1-
IAgz3dcnekys6d1000000000_ptw8e" class="hip-photo"></div>

我想试试Beautifulsoup（bs4）图书馆。您的img标记有一个id，因此您可以调用bs4中的find函数

source_code.find('img', id=its_id)

然后从标签中获取scr

如果您以前从未使用过Beautifulsoup，那么它非常容易学习，因此我建议您研究一下它

希望这有帮助

相对于当前节点进行搜索，该节点在您的问题中未指定。如果使用

，它将搜索整个文档。另见

如果要搜索整个文档XPath

//img[@class="hip-photo"]/@src

将选择所有

img

元素的

src

属性，属性值为

“hip photo”

欢迎使用SO！请拿着这本书，读一读！此外，屏幕截图像磁铁一样吸引向下投票。请将代码作为文本包含在

code

部分中，而不是作为图像。您确定该页面的内容不是动态生成的吗？如果你是，那么就没问题了，否则你应该使用任何浏览器模拟器来读取元素，然后应用建议的XPath，甚至你已经定义的方式也应该如此。删除注释。给出了一个链接和使用点的清晰度。

//img[@class="hip-photo"]/@src