Python 3.x Python请求HTML提取SRC_Python 3.x_Python Requests Html

Python 3.x Python请求HTML提取SRC

python-3.x

Python 3.x Python请求HTML提取SRC,python-3.x,python-requests-html,Python 3.x,Python Requests Html,想知道是否有人能帮忙。我在文档中搜索了html请求，但没有找到以前我使用的是requests和beautifuldsoup，但我正在抓取的网站现在已经实现了javascript。我已经设法使用HTML请求提取文本，但不确定如何提取图像SRC from requests_html import HTMLSession session = HTMLSession() R = session.get(SHOPURL,headers=headers) images = R.html.find(#we

想知道是否有人能帮忙。我在文档中搜索了html请求，但没有找到

以前我使用的是requests和beautifuldsoup，但我正在抓取的网站现在已经实现了javascript。我已经设法使用HTML请求提取文本，但不确定如何提取图像SRC

from requests_html import HTMLSession

session = HTMLSession()
R = session.get(SHOPURL,headers=headers)
images = R.html.find(#website information)
for image in images:
    print(image)

对于存在的每个映像，这是返回的内容

<Element 'img' _ngcontent-app-c164='' deferload=''>

网站上的图像文件名存储在'src'

下

元素

类的属性就是您要查找的-它是包含元素所有属性的dict。对于

img

元素（或标记），

元素

属性将包含图像的路径。因此：

对于图像中的图像：
src=image.attrs[“src”]
打印（src）
输出：
/img/logo.png
/img/header.png
http://www.website.com/img/hero_background.png
...

图像是延迟加载的，在一个必须使用头信息进行身份验证的API请求之后

感谢MattDMo的响应，我已经尝试实现并得到了一个关键错误：“src”，尽管肯定有一个src调用attrs本身只返回{“ngcontent-app-c164”：“deferload”：”@HJB页面源中实际的HTML代码是什么样子的？

标记中是否有

src

属性？您无法通过页面源访问img标记，这是否与延迟加载有关？