在python中从HTML提取所有锚点的快速方法
有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML 我知道使用BeautifulSoup有一个解决方案,但BeautifulSoup的问题是它太重,并且在某些URL上会消耗大量内存 我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF 有人知道吗 谢谢 您可以使用在python中从HTML提取所有锚点的快速方法,python,Python,有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML 我知道使用BeautifulSoup有一个解决方案,但BeautifulSoup的问题是它太重,并且在某些URL上会消耗大量内存 我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF 有人知道吗 谢谢 您可以使用 从HTMLParser导入HTMLParser 类提取href(HTMLPasser): def句柄\u开始标记(自身、标记、属性): 如果标记==“a”: 对于键,属性中的val: 如果键==
从HTMLParser导入HTMLParser
类提取href(HTMLPasser):
def句柄\u开始标记(自身、标记、属性):
如果标记==“a”:
对于键,属性中的val:
如果键=='href':
打印val
parser=extract_href()
提要(“”)
from HTMLParser import HTMLParser
class extract_href(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == "a":
for key, val in attrs:
if key == 'href':
print val
parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")