用python和BeautifulSoup从网站上抓取代码

用python和BeautifulSoup从网站上抓取代码,python,html,python-3.x,beautifulsoup,Python,Html,Python 3.x,Beautifulsoup,我的项目是关于刮5购物网站。我从StackOverflow和youtube上找到了有用的数据。但我被困在一个网站上。 一个div类使用样式显示、无和隐藏可见性,之后所有div类都被隐藏。我尝试使用ajax,google chrome javascript扩展,并应用了其他4种不同的方法,但这个网站对我来说有点难。如果有人帮助我阅读这些标签,这样我就可以从网站上抓取数据,这将是有益的。 网站网址为: 目前,我正在使用简单的代码进行解析。这是我使用的代码 y = requests.get(url)

我的项目是关于刮5购物网站。我从StackOverflow和youtube上找到了有用的数据。但我被困在一个网站上。 一个div类使用样式显示、无和隐藏可见性,之后所有div类都被隐藏。我尝试使用ajax,google chrome javascript扩展,并应用了其他4种不同的方法,但这个网站对我来说有点难。如果有人帮助我阅读这些标签,这样我就可以从网站上抓取数据,这将是有益的。 网站网址为:

目前,我正在使用简单的代码进行解析。这是我使用的代码

 y = requests.get(url)

 soup = BeautifulSoup(y.text, "html.parser")
 products = soup.find('div', class_='container min-w1170')
 products = products.find('div', class_='row mgt25')

 print(products)

 products = products.find_all("div", class_="findify-components-common--grid__column findify-components-common--grid__column-6")
 print(products)

在第一次打印之前,所有div类都在工作,但在那之后,我无法从下一个div类中找到数据

此脚本将为您提供所需的一切。使用beautifulsoup的诀窍是仔细分析html并在元素中查找模式。代码中的错误可能是使用了错误的属性值

从bs4导入美化组
导入请求
从selenium导入webdriver
从套接字导入套接字
url='1〕https://homeshopping.pk/search.php?q=dell'
browser=webdriver.Firefox()
browser.get(url)
html=browser.page\u源
soup=BeautifulSoup(html,features='html.parser')
products=soup.find#all('div',{'class':'findify-components--cards--productinnerp-productbox'})#每个产品块的div
对于产品中的产品:
name=(product.find('span',{'class':'findify-components--text findify-components--cards--product\u title'})).get\u text()
price=(product.find('span',{'class':'price findify components--cards--product--price\u price'})).get\u text()
img_src=product.find('img')
all\u url=product.find\u all('a')
product_url=all_url[1]#它将始终是第二个
product_url_only=product_url['href']

您想要的输出是什么?@JackFleeting产品名称、价格、图像URL、产品URL。这些信息是使用javascript动态加载的。搜索有关使用Selenium的信息。我已经尝试了Selenium,但它在这个网站上不起作用,在另一个网站上,我使用了带有chrome的Selenium web驱动程序,它可以工作。我肯定我遗漏了一两件事,但无法识别。我已经试了两天了。但是现在可以确定为什么它不能与ajax或selenium一起工作。