Python 自动打开每个搜索结果(元素数据ihref)
我对硒很陌生。目前,我已经创建了一个抓取工具,它可以在卡车交易平台上打开一个包含搜索结果的网站,打印价格和年限(年份)等信息。 不幸的是,数据库没有太多的细节。例如,我想得到这些卡车的年龄,以及月,年。因此,我现在的目标是,该工具不仅可以打印搜索结果页面中的信息,还应该能够在每个结果内部单击以获得更详细的信息 访问特定结果的详细页面的一种方法是单击标题,其中包括:Python 自动打开每个搜索结果(元素数据ihref),python,selenium,search,web-scraping,href,Python,Selenium,Search,Web Scraping,Href,我对硒很陌生。目前,我已经创建了一个抓取工具,它可以在卡车交易平台上打开一个包含搜索结果的网站,打印价格和年限(年份)等信息。 不幸的是,数据库没有太多的细节。例如,我想得到这些卡车的年龄,以及月,年。因此,我现在的目标是,该工具不仅可以打印搜索结果页面中的信息,还应该能够在每个结果内部单击以获得更详细的信息 访问特定结果的详细页面的一种方法是单击标题,其中包括: 您可以尝试查找所有包含类的div,其中包含列有分页符的行->下一个div是您的: results = driver.find_ele
您可以尝试查找所有包含类的
div
,其中包含列有分页符的行->下一个div
是您的:
results = driver.find_elements_by_xpath("//div[contains(@class,'row-listing page-break-inside')]/div")
之后,您可以循环查看结果
for ele in results:
ele.click()
...
示例-无。单击()
from selenium import webdriver
driver = webdriver.Chrome(executable_path=r'C:\Program Files\ChromeDriver\chromedriver.exe')
html_content = """
<div class="row-listing page-break-inside ">
<div data-ihref="/mercedes-sattelzugmaschine-standard-actros/4x2-euro-6-hydraulikanlage-niedersachsen/ts-vi5576343/gebrauchte.html" data-follow="true" title="Mercedes Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
<div class="row-listing page-break-inside ">
<div data-ihref="/daf-sattelzugmaschine-standard-cf-440/4x2-euro-6-niedersachsen/ts-vi5577630/gebrauchte.html" data-follow="true" title="DAF Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
<div class="row-listing page-break-inside ">
<div data-ihref="/man-sattelzugmaschine-standard-tgx/4x2-euro-6-hessen/ts-vi5575368/gebrauchte.html" data-follow="true" title="MAN Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
"""
driver.get("data:text/html;charset=utf-8,{html_content}".format(html_content=html_content))
results = driver.find_elements_by_xpath("//div[contains(@class,'row-listing page-break-inside')]/div")
for ele in results:
x=ele.get_attribute('data-ihref')
print(x)
driver.close()
您可以尝试查找所有包含类的div
,其中包含列有分页符的行
->下一个div
是您的:
results = driver.find_elements_by_xpath("//div[contains(@class,'row-listing page-break-inside')]/div")
之后,您可以循环查看结果
for ele in results:
ele.click()
...
示例-无。单击()
from selenium import webdriver
driver = webdriver.Chrome(executable_path=r'C:\Program Files\ChromeDriver\chromedriver.exe')
html_content = """
<div class="row-listing page-break-inside ">
<div data-ihref="/mercedes-sattelzugmaschine-standard-actros/4x2-euro-6-hydraulikanlage-niedersachsen/ts-vi5576343/gebrauchte.html" data-follow="true" title="Mercedes Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
<div class="row-listing page-break-inside ">
<div data-ihref="/daf-sattelzugmaschine-standard-cf-440/4x2-euro-6-niedersachsen/ts-vi5577630/gebrauchte.html" data-follow="true" title="DAF Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
<div class="row-listing page-break-inside ">
<div data-ihref="/man-sattelzugmaschine-standard-tgx/4x2-euro-6-hessen/ts-vi5575368/gebrauchte.html" data-follow="true" title="MAN Sattelzugmaschine" class="display-block decoration-none">...</div>
</div>
"""
driver.get("data:text/html;charset=utf-8,{html_content}".format(html_content=html_content))
results = driver.find_elements_by_xpath("//div[contains(@class,'row-listing page-break-inside')]/div")
for ele in results:
x=ele.get_attribute('data-ihref')
print(x)
driver.close()