Html 从另一个href中的href提取链接-嵌套链接(?)
我不确定我问的这个问题是否正确,但我遇到了一件我以前从未见过的事情(FWIW),由于研究没有得出任何与此完全相同的结论,我感到困惑: 试着去。我照常做Html 从另一个href中的href提取链接-嵌套链接(?),html,web-scraping,beautifulsoup,screen-scraping,Html,Web Scraping,Beautifulsoup,Screen Scraping,我不确定我问的这个问题是否正确,但我遇到了一件我以前从未见过的事情(FWIW),由于研究没有得出任何与此完全相同的结论,我感到困惑: 试着去。我照常做 r = requests.get(url) html = r.text soup = bs4(html, "lxml") 尝试查找某些链接时,我会: exh = soup.find_all('a') 输出包含两个常用格式的URL,但其中许多URL具有以下形式(随机选择): 在Firefox页面上,此条目如下所示: <td>
r = requests.get(url)
html = r.text
soup = bs4(html, "lxml")
尝试查找某些链接时,我会:
exh = soup.find_all('a')
输出包含两个常用格式的URL,但其中许多URL具有以下形式(随机选择):
在Firefox页面上,此条目如下所示:
<td>
<div>
<a style="-sec-extract:exhibit;"href="exhibit103.htm">
<span>Amendment Two [etc.]
</span>
</a>
</div>
</td>
请注意,此条目看起来不可单击,但如果将鼠标悬停在其上
我认为这个部分的HTML/CSS的相关部分是这样的:
<td>
<div>
<a style="-sec-extract:exhibit;"href="exhibit103.htm">
<span>Amendment Two [etc.]
</span>
</a>
</div>
</td>
在我无知的眼中,它就像是另一个嵌套链接中的
href
。所以一般的问题是——为什么会有人为此烦恼?(对我来说)更重要的一点是如何使用BeautifulSoup(或任何其他方法)提取实际链接?嵌套链接是无效的标记,但您显示的示例不包含嵌套链接;只需一个简单的href(带有相对URL)。如果你问的是相对路径,你可以哇,它们是相对链接!出于某种原因,我没有想到这种可能性。谢谢你!不麻烦,很乐意帮忙!嵌套链接是无效的标记,但您显示的示例不包含嵌套链接;只需一个简单的href(带有相对URL)。如果你问的是相对路径,你可以哇,它们是相对链接!出于某种原因,我没有想到这种可能性。谢谢你!不麻烦,很乐意帮忙!