Html 从另一个href中的href提取链接-嵌套链接（？）_Html_Web Scraping_Beautifulsoup_Screen Scraping

Html 从另一个href中的href提取链接-嵌套链接（？）

html web-scraping

Html 从另一个href中的href提取链接-嵌套链接（？）,html,web-scraping,beautifulsoup,screen-scraping,Html,Web Scraping,Beautifulsoup,Screen Scraping,我不确定我问的这个问题是否正确，但我遇到了一件我以前从未见过的事情（FWIW），由于研究没有得出任何与此完全相同的结论，我感到困惑：试着去。我照常做 r = requests.get(url) html = r.text soup = bs4(html, "lxml") 尝试查找某些链接时，我会： exh = soup.find_all('a') 输出包含两个常用格式的URL，但其中许多URL具有以下形式（随机选择）：在Firefox页面上，此条目如下所示： <td>

我不确定我问的这个问题是否正确，但我遇到了一件我以前从未见过的事情（FWIW），由于研究没有得出任何与此完全相同的结论，我感到困惑：

试着去。我照常做

r = requests.get(url)
html = r.text
soup =  bs4(html, "lxml")

尝试查找某些链接时，我会：

exh = soup.find_all('a')

输出包含两个常用格式的URL，但其中许多URL具有以下形式（随机选择）：

在Firefox页面上，此条目如下所示：

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>

请注意，此条目看起来不可单击，但如果将鼠标悬停在其上

我认为这个部分的HTML/CSS的相关部分是这样的：

<td>
  <div>
      <a style="-sec-extract:exhibit;"href="exhibit103.htm">
       <span>Amendment Two [etc.]
           </span>
      </a>
   </div>
</td>

在我无知的眼中，它就像是另一个嵌套链接中的

href

。所以一般的问题是——为什么会有人为此烦恼？（对我来说）更重要的一点是如何使用BeautifulSoup（或任何其他方法）提取实际链接？

嵌套链接是无效的标记，但您显示的示例不包含嵌套链接；只需一个简单的href（带有相对URL）。如果你问的是相对路径，你可以哇，它们是相对链接！出于某种原因，我没有想到这种可能性。谢谢你！不麻烦，很乐意帮忙！嵌套链接是无效的标记，但您显示的示例不包含嵌套链接；只需一个简单的href（带有相对URL）。如果你问的是相对路径，你可以哇，它们是相对链接！出于某种原因，我没有想到这种可能性。谢谢你！不麻烦，很乐意帮忙！