如何在Python中的td标记内获取href值
我正在尝试根据如何在Python中的td标记内获取href值,python,beautifulsoup,Python,Beautifulsoup,我正在尝试根据td字符串获取td标记内的所有href链接。我成功地获得了所有与BeautifulSoup模块的href链接,但我只对td标记下的href链接感兴趣,其中td类包含特定字符串。是否可以使用BeautifulSoup模块或Python中的任何其他模块提取这些内容 <td title="" class="pass"> <a href="link info"> <div class="fill">
td
字符串获取td
标记内的所有href
链接。我成功地获得了所有与BeautifulSoup模块的href
链接,但我只对td
标记下的href
链接感兴趣,其中td
类包含特定字符串。是否可以使用BeautifulSoup模块或Python中的任何其他模块提取这些内容
<td title="" class="pass">
<a href="link info">
<div class="fill"></div>
</a>
</td>
<td title="" class="fail">
<a href="inlk">
<div class="fill"></div>
</a>
</td>
<div class="fill"></div>
</a>
</td>
我有兴趣获取此网页中的所有href
链接,其中td
类为pass
您可以使用:
这将从页面中的td获取href。希望这对你有用
for link in soup.select('td.pass a[href]'):
print link['href']
from BeautifulSoup import BeautifulSoup,SoupStrainer
import requests
import re
c_link = 'your_link'
r = requests.get(c_link)
data = r.text
soup = BeautifulSoup(data, parseOnlyThese=SoupStrainer("td"))
x = soup.findAll("a")
for tr in x:
links = tr.get('href')
print links