Python 如何获得“唯一”；href"；和美女4？_Python_Beautifulsoup

Python 如何获得“唯一”；href"；和美女4？

python

Python 如何获得“唯一”；href"；和美女4？,python,beautifulsoup,Python,Beautifulsoup,我试图从find\u all（）这是我的密码： mydivs = soup.find_all("td", {"class": "candidates"}) for link in mydivs: print(link) 但它的回报是： <td class="candidates"><div><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/

我试图从

find\u all（）

这是我的密码：

    mydivs = soup.find_all("td", {"class": "candidates"})
    for link in mydivs:
        print(link)

但它的回报是：

<td class="candidates"><div><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/c#candidates?id=a722443b402&amp;ctx=jobs-tab-view-candidates">56 candidates</a><br/><a data-tn-element="view-unread-candidates" data-tn-link="true" href="/c#candidates?id=a7b2a139b402&amp;candidateFilter=4af15d8991a8"><span class="jobs-u-font--bold">(45 awaiting review)</span></a></div></td>

我想要的是：

/c#候选人？id=a722443b402&；ctx=jobs选项卡查看候选项

将bs4元素转换为字符串后，可以使用regex解析href和最后一个引号之间的所有内容

import re

#Rest of imports/code up until your script. 

mydivs = soup.find_all("td", {"class": "candidates"})
or link in mydivs:
   link_text = str(link)
   href_link = re.search('href = "(.+?)"', link_text)
   print(href_link.group(1))

小示例如下所示：

import re

link_text = '<td class = "candidates" > <div > <a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a722443b402&amp;ctx=jobs-tab-view-candidates" > 56 candidates < /a > <br/> < a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a7b2a139b402&amp;candidateFilter=4af15d8991a8" > <span class = "jobs-u-font--bold" > (45 awaiting review) < /span > </a > </div > </td >'
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))

您可能需要使用

href=“

在搜索中，因为我看不到标签的外观。但您所需要做的就是将href中的确切文本复制到您希望使用的链接的第一个字符

将bs4元素转换为字符串后，可以使用regex解析href和最后一个引号之间的所有内容

import re

#Rest of imports/code up until your script. 

mydivs = soup.find_all("td", {"class": "candidates"})
or link in mydivs:
   link_text = str(link)
   href_link = re.search('href = "(.+?)"', link_text)
   print(href_link.group(1))

小示例如下所示：

import re

link_text = '<td class = "candidates" > <div > <a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a722443b402&amp;ctx=jobs-tab-view-candidates" > 56 candidates < /a > <br/> < a data-tn-element = "view-unread-candidates" data-tn-link = "true" href = "/c#candidates?id=a7b2a139b402&amp;candidateFilter=4af15d8991a8" > <span class = "jobs-u-font--bold" > (45 awaiting review) < /span > </a > </div > </td >'
href_link = re.search('href = "(.+?)"', link_text)
print(href_link.group(1))

您可能需要使用

href=“

在搜索中，因为我看不到标签的外观。但您所需要做的就是将href中的确切文本复制到您希望使用的链接的第一个字符

是否要包括href或no？这已经转换成字符串了还是没有？老实说，这不是一个真正的MCVE。嘿！我只想得到

/c#候选者？id=a7b2a139b402&；candidateFilter=4af15d8991a8

Use@daka我正在浏览您发送的帖子。我正在尝试

link.href

，但它返回

None

。我的值

链接

是一个

，它包含一个href。您可以提供建议吗？在尝试访问

href

属性之前，您需要在其中找到

元素。是否包含href？这已经转换成字符串了还是没有？老实说，这不是一个真正的MCVE。嘿！我只想得到

/c#候选者？id=a7b2a139b402&；candidateFilter=4af15d8991a8

Use@daka我正在浏览您发送的帖子。我正在尝试

link.href

，但它返回

None

。我的值

链接

是一个

，它包含一个href。您能提供建议吗？在尝试访问

href

属性之前，您需要在其中找到

元素。请参阅我上面的评论。不，因为它不必要地复杂，这使它成为一个糟糕的答案，值得投反对票。看到用户如何尝试你标记为重复的帖子，但没有返回任何结果，我不认为这过于复杂，而是一个有效的解决方案。请看我上面的评论。不，因为它不必要地复杂，这使它成为一个糟糕的答案，值得投反对票。看到用户如何尝试你标记为重复的帖子，但没有返回结果，我不会说这太复杂，而是一个有效的解决方案。