在python中从HTML提取所有锚点的快速方法_Python

在python中从HTML提取所有锚点的快速方法

python

在python中从HTML提取所有锚点的快速方法,python,Python,有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML 我知道使用BeautifulSoup有一个解决方案，但BeautifulSoup的问题是它太重，并且在某些URL上会消耗大量内存我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF 有人知道吗谢谢您可以使用从HTMLParser导入HTMLParser 类提取href（HTMLPasser）： def句柄\u开始标记（自身、标记、属性）：如果标记==“a”：对于键，属性中的val：如果键==

有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML

我知道使用BeautifulSoup有一个解决方案，但BeautifulSoup的问题是它太重，并且在某些URL上会消耗大量内存

我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF

有人知道吗

谢谢

您可以使用

从HTMLParser导入HTMLParser
类提取href（HTMLPasser）：
def句柄\u开始标记（自身、标记、属性）：
如果标记==“a”：
对于键，属性中的val：
如果键=='href'：
打印val
parser=extract_href（）
提要（“”）

from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")