Html 从另一个href中的href提取链接-嵌套链接(?)

Html 从另一个href中的href提取链接-嵌套链接(?),html,web-scraping,beautifulsoup,screen-scraping,Html,Web Scraping,Beautifulsoup,Screen Scraping,我不确定我问的这个问题是否正确,但我遇到了一件我以前从未见过的事情(FWIW),由于研究没有得出任何与此完全相同的结论,我感到困惑: 试着去。我照常做 r = requests.get(url) html = r.text soup = bs4(html, "lxml") 尝试查找某些链接时,我会: exh = soup.find_all('a') 输出包含两个常用格式的URL,但其中许多URL具有以下形式(随机选择): 在Firefox页面上,此条目如下所示: <td>

我不确定我问的这个问题是否正确,但我遇到了一件我以前从未见过的事情(FWIW),由于研究没有得出任何与此完全相同的结论,我感到困惑:

试着去。我照常做

r = requests.get(url)
html = r.text
soup =  bs4(html, "lxml")
尝试查找某些链接时,我会:

exh = soup.find_all('a')
输出包含两个常用格式的URL,但其中许多URL具有以下形式(随机选择):

在Firefox页面上,此条目如下所示:

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>

请注意,此条目看起来不可单击,但如果将鼠标悬停在其上

我认为这个部分的HTML/CSS的相关部分是这样的:

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>


在我无知的眼中,它就像是另一个嵌套链接中的
href
。所以一般的问题是——为什么会有人为此烦恼?(对我来说)更重要的一点是如何使用BeautifulSoup(或任何其他方法)提取实际链接?

嵌套链接是无效的标记,但您显示的示例不包含嵌套链接;只需一个简单的href(带有相对URL)。如果你问的是相对路径,你可以哇,它们是相对链接!出于某种原因,我没有想到这种可能性。谢谢你!不麻烦,很乐意帮忙!嵌套链接是无效的标记,但您显示的示例不包含嵌套链接;只需一个简单的href(带有相对URL)。如果你问的是相对路径,你可以哇,它们是相对链接!出于某种原因,我没有想到这种可能性。谢谢你!不麻烦,很乐意帮忙!