如何从HTML中提取链接(使用python)
所以我下载了一个网页的HTML。我应该从HTML中提取所有链接并输出它们。这是我的密码如何从HTML中提取链接(使用python),python,html,parsing,Python,Html,Parsing,所以我下载了一个网页的HTML。我应该从HTML中提取所有链接并输出它们。这是我的密码 f = open('html.py','r') heb = f.readlines() arry = [] if 'href' in heb: arry = arry.append(href) print(arry) 我试图列出一个链接列表并输出它,但老实说,我真的迷路了。有人能给我指出正确的方向吗?我在想regex可能是最好的选择 谢谢您可以使用Beautiful Soup(您需要安装它
f = open('html.py','r')
heb = f.readlines()
arry = []
if 'href' in heb:
arry = arry.append(href)
print(arry)
我试图列出一个链接列表并输出它,但老实说,我真的迷路了。有人能给我指出正确的方向吗?我在想regex可能是最好的选择
谢谢您可以使用Beautiful Soup(您需要安装它,例如使用
pip安装BeautifulSoup4
):
您可以使用Beautiful Soup(您需要安装它,例如使用
pip安装Beautiful Soup4
):
不要在html上使用正则表达式!使用类似BeautifulSoup的HTML解析器。在HTML上可能重复Do't Use regex!使用类似BeautifulSoup的HTML解析器。的可能重复项
import bs4
with open("my-file.html") as f:
soup = bs4.BeautifulSoup(f)
links = [link['href'] for link in soup('a') if 'href' in link.attrs]