Python 如何获得“唯一”;href";和美女4?
我试图从Python 如何获得“唯一”;href";和美女4?,python,beautifulsoup,Python,Beautifulsoup,我试图从find\u all() 这是我的密码: mydivs = soup.find_all("td", {"class": "candidates"}) for link in mydivs: print(link) 但它的回报是: <td class="candidates"><div><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/
find\u all()
这是我的密码:
mydivs = soup.find_all("td", {"class": "candidates"})
for link in mydivs:
print(link)
但它的回报是:
<td class="candidates"><div><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/c#candidates?id=a722443b402&ctx=jobs-tab-view-candidates">56 candidates</a><br/><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/c#candidates?id=a7b2a139b402&candidateFilter=4af15d8991a8"><span class="jobs-u-font--bold">(45 awaiting review)</span></a></div></td>
我想要的是:
/c#候选人?id=a722443b402&;ctx=jobs选项卡查看候选项
将bs4元素转换为字符串后,可以使用regex解析href和最后一个引号之间的所有内容
import re
#Rest of imports/code up until your script.
mydivs = soup.find_all("td", {"class": "candidates"})
or link in mydivs:
link_text = str(link)
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))
小示例如下所示:
import re
link_text = '<td class = "candidates" > <div > <a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a722443b402&ctx=jobs-tab-view-candidates" > 56 candidates < /a > <br/> < a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a7b2a139b402&candidateFilter=4af15d8991a8" > <span class = "jobs-u-font--bold" > (45 awaiting review) < /span > </a > </div > </td >'
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))
您可能需要使用
href=“
在搜索中,因为我看不到标签的外观。但您所需要做的就是将href中的确切文本复制到您希望使用的链接的第一个字符 将bs4元素转换为字符串后,可以使用regex解析href和最后一个引号之间的所有内容
import re
#Rest of imports/code up until your script.
mydivs = soup.find_all("td", {"class": "candidates"})
or link in mydivs:
link_text = str(link)
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))
小示例如下所示:
import re
link_text = '<td class = "candidates" > <div > <a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a722443b402&ctx=jobs-tab-view-candidates" > 56 candidates < /a > <br/> < a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a7b2a139b402&candidateFilter=4af15d8991a8" > <span class = "jobs-u-font--bold" > (45 awaiting review) < /span > </a > </div > </td >'
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))
您可能需要使用
href=“
在搜索中,因为我看不到标签的外观。但您所需要做的就是将href中的确切文本复制到您希望使用的链接的第一个字符 是否要包括href或no?这已经转换成字符串了还是没有?老实说,这不是一个真正的MCVE。嘿!我只想得到/c#候选者?id=a7b2a139b402&;candidateFilter=4af15d8991a8
Use@daka我正在浏览您发送的帖子。我正在尝试link.href
,但它返回None
。我的值链接
是一个
,它包含一个href。您可以提供建议吗?在尝试访问href
属性之前,您需要在其中找到a
元素。是否包含href?这已经转换成字符串了还是没有?老实说,这不是一个真正的MCVE。嘿!我只想得到/c#候选者?id=a7b2a139b402&;candidateFilter=4af15d8991a8
Use@daka我正在浏览您发送的帖子。我正在尝试link.href
,但它返回None
。我的值链接
是一个
,它包含一个href。您能提供建议吗?在尝试访问href
属性之前,您需要在其中找到a
元素。请参阅我上面的评论。不,因为它不必要地复杂,这使它成为一个糟糕的答案,值得投反对票。看到用户如何尝试你标记为重复的帖子,但没有返回任何结果,我不认为这过于复杂,而是一个有效的解决方案。请看我上面的评论。不,因为它不必要地复杂,这使它成为一个糟糕的答案,值得投反对票。看到用户如何尝试你标记为重复的帖子,但没有返回结果,我不会说这太复杂,而是一个有效的解决方案。