使用python和selenium从网页获取产品详细信息_Python_Python 3.x_Beautifulsoup_Selenium Chromedriver

使用python和selenium从网页获取产品详细信息

python python-3.x

使用python和selenium从网页获取产品详细信息,python,python-3.x,beautifulsoup,selenium-chromedriver,Python,Python 3.x,Beautifulsoup,Selenium Chromedriver,我需要从网页中刮取一些数据。我正在使用selenium和Python来实现这一点，但无法获得所需的结果。如果有人能建议我怎么做，或者如何更改代码以获得所需的结果，这将非常有帮助我需要得到以下订单位置，产品名称，网址和公司名称的结果下面的脚本可以获取所有标题名称，但有额外的“\n”字符，无法获取其他详细信息。请任何人帮助我或提供建议 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdr

我需要从网页中刮取一些数据。我正在使用selenium和Python来实现这一点，但无法获得所需的结果。如果有人能建议我怎么做，或者如何更改代码以获得所需的结果，这将非常有帮助
我需要得到以下订单位置，产品名称，网址和公司名称的结果
下面的脚本可以获取所有标题名称，但有额外的“\n”字符，无法获取其他详细信息。请任何人帮助我或提供建议

from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.common.exceptions import TimeoutException option = webdriver.ChromeOptions() option.add_argument(" — incognito") #browser = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver/', chrome_options=option) browser = webdriver.Chrome(executable_path='/users/user_1566/downloads/chrome_driver/chromedriver', chrome_options=option) browser.get('https://www.google.com/search?q=samsung+note10') #items = len(browser.find_elements_by_class_name("cu-container")) #items = len(browser.find_elements_by_class_name("mnr-c pla-unit")) #print(items) timeout = 20 try: WebDriverWait(browser, timeout).until(EC.visibility_of_element_located((By.XPATH, "//div[@class='top-pla-group-inner']"))) except TimeoutException: print('Timed out waiting for page to load') #browser.quit() titles_element = browser.find_elements_by_xpath("//div[@class='mnr-c pla-unit']") # use list comprehension to get the actual repo titles and not the selenium objects. titles = [x.text for x in titles_element] # print out all the titles. print('titles:') print(titles, '\n') language_element = browser.find_elements_by_xpath("//a[@class=''plantl pla-unit-single-clickable-target clickable-card']") print(language_element) # same concept as for list-comprehension above. languages = [x.text for x in language_element] print("languages:") print(languages, "\n") for title, language in zip(titles, languages): print("RepoName : Language") print(title + ": " + language, "\n")

URL的预期输出
试一试

在这之后，您可以根据需要显示
我们可以在这里添加输出吗？@SHASHIKUMARKL是的，当然可以。我将在这里添加输出，如果您能提供指导，这将非常有用。这是URL，示例输出将添加到上面。@SHASHIKUMARKL有什么建议或修改吗？我得到的输出如下任何其他解决方案或事情要做吗？或者你知道如何创建一个包含DIV类所有内容的文本文件吗？.getText（）方法我想获得divclass“top pla group inner”的全部内容并将其另存为文本文件，尝试过使用它，但不限制DIV clas items=browser的内容。按类名称（“顶级pla组内部”）查找元素。getText（）打印（项目）
Position Company_Name Product_Name URL 1 CHECK24 Samsung Galaxy Note10 256 GB glow mit Vertrag + Allnet Flat bei

details=browser.find_elements_by_class_name("pymv4e") for i in details: print(str(i))