Python href beautifulsoul html选择不';不要返回想要的结果
我想通过Beauty soup提取第一个链接的所有第一个href 如图所示,我的代码是HTMLPython href beautifulsoul html选择不';不要返回想要的结果,python,web-scraping,beautifulsoup,css-selectors,Python,Web Scraping,Beautifulsoup,Css Selectors,我想通过Beauty soup提取第一个链接的所有第一个href 如图所示,我的代码是HTML <body> <div> some html <footer> <div>...</div> <div> <span></span> <span&g
<body>
<div>
some html
<footer>
<div>...</div>
<div>
<span></span>
<span></span>
<a href="some link alpha"></a> #<<<<<<------- i want this
<a href="some link beta"></a>
</div>
</footer>
</div>
<div>
some html
<footer>
<div>...</div>
<div>
<span></span>
<span></span>
<a href="somelink gamma"></a> #<<<<<<------- i want this too
<a href="somelink delta"></a>
</div>
</footer>
</div>
....
</body>
代码没有给出我想要的,如果我只做“a”,它会返回所有链接,我尝试了很多方法但没有给出结果,甚至css选择器对我也不起作用
从bs4导入美化组
示例_html=“”
一些html
...
#但我无法区分文本之间的差异[它可以是相似的],我只想得到第一个无条件文本,但条件基于位置。那么,基于您的HTML示例,这是您能得到的最好结果。使用更接近您实际HTML的示例编辑问题或共享URL。很明显,href只是一个随机值,我忽略了它,因此我无法对其设置条件,目标是返回每个页脚元素的第一个href好的,我知道了。请参阅更新的答案。
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
content = soup.find_all('footer div a',attrs={'href' : True})
for a in content:
print ("Found the URL:", a['href'])
['link1 i want', 'link2 i want']