Python 3.x Python请求HTML提取SRC
想知道是否有人能帮忙。我在文档中搜索了html请求,但没有找到 以前我使用的是requests和beautifuldsoup,但我正在抓取的网站现在已经实现了javascript。我已经设法使用HTML请求提取文本,但不确定如何提取图像SRCPython 3.x Python请求HTML提取SRC,python-3.x,python-requests-html,Python 3.x,Python Requests Html,想知道是否有人能帮忙。我在文档中搜索了html请求,但没有找到 以前我使用的是requests和beautifuldsoup,但我正在抓取的网站现在已经实现了javascript。我已经设法使用HTML请求提取文本,但不确定如何提取图像SRC from requests_html import HTMLSession session = HTMLSession() R = session.get(SHOPURL,headers=headers) images = R.html.find(#we
from requests_html import HTMLSession
session = HTMLSession()
R = session.get(SHOPURL,headers=headers)
images = R.html.find(#website information)
for image in images:
print(image)
对于存在的每个映像,这是返回的内容
<Element 'img' _ngcontent-app-c164='' deferload=''>
网站上的图像文件名存储在'src'下元素
类的属性就是您要查找的-它是包含元素所有属性的dict。对于img
元素(或标记),元素
属性将包含图像的路径。因此:
对于图像中的图像:
src=image.attrs[“src”]
打印(src)
输出:
/img/logo.png
/img/header.png
http://www.website.com/img/hero_background.png
...
图像是延迟加载的,在一个必须使用头信息进行身份验证的API请求之后感谢MattDMo的响应,我已经尝试实现并得到了一个关键错误:“src”,尽管肯定有一个src调用attrs本身只返回{“ngcontent-app-c164”:“deferload”:”@HJB页面源中实际的HTML代码是什么样子的?
标记中是否有src
属性?您无法通过页面源访问img标记,这是否与延迟加载有关?