Python 3.x 找到一种从网站中提取图像的URL和描述的方法
所以我试图从一个网站中提取URL和每张图片下的描述,然后能够下载图片 不过我还没能通过提取点 我正在使用Python 3.x 找到一种从网站中提取图像的URL和描述的方法,python-3.x,beautifulsoup,Python 3.x,Beautifulsoup,所以我试图从一个网站中提取URL和每张图片下的描述,然后能够下载图片 不过我还没能通过提取点 我正在使用Beautifulsoup从HTML标记中提取我想要的文本,我让它只用于find()标记的第一个链接 我开始用find_all()获取其余链接,但我被卡住了 有人能帮我找出在哪里需要使用find_all()吗?我是否需要另一个for循环来进行描述 import requests from bs4 import BeautifulSoup import urllib import csv imp
Beautifulsoup
从HTML标记中提取我想要的文本,我让它只用于find()标记的第一个链接
我开始用find_all()获取其余链接,但我被卡住了
有人能帮我找出在哪里需要使用find_all()吗?我是否需要另一个for循环来进行描述
import requests
from bs4 import BeautifulSoup
import urllib
import csv
import time
URL = 'https://www.baps.org/vicharan'
content = requests.get(URL)
soup=BeautifulSoup(content.text, 'html.parser')
f = csv.writer(open('crawler.csv' , 'w'))
f.writerow(['description' , 'full_link'])
panelrow = soup.find('div' , {'class' : 'panelrow'})
main_class = panelrow.find_all('div' , {'class' : 'col-xl-3 col-lg-3 col-md-3 col-sm-12 col-xs-12 padding5'})
individual_classes = panelrow.find('a' , {'class' : 'highslidooo'})
for link in individual_classes.find_all('img'):
links=link.get('src')
full_link = 'https://www.baps.org' + links
description = link.get('alt')
f.writerow([description , full_link])
print('--------------------')
print(full_link)
print(description)
类
panelrow
在隐藏的div
上声明。您应该改用fullview
id
这将给您一个
包含23个
,每个
包含一个
以下是在crawler.csv
中的结果:
description,full_link
Param Pujya Mahant Swami Maharaj performs the morning arti,https://www.baps.org/Data/Sites/1/Media/GalleryImages/22118/WebImages/2020_05_20_001_Nenpur.jpg
Swamishri applies a tilak on his forehead ,https://www.baps.org/Data/Sites/1/Media/GalleryImages/22118/WebImages/2020_05_20_002_Nenpur.jpg
Swamishri applies chandlo ,https://www.baps.org/Data/Sites/1/Media/GalleryImages/22118/WebImages/2020_05_20_003_Nenpur.jpg
...