Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中从HTML提取所有锚点的快速方法_Python - Fatal编程技术网

在python中从HTML提取所有锚点的快速方法

在python中从HTML提取所有锚点的快速方法,python,Python,有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML 我知道使用BeautifulSoup有一个解决方案,但BeautifulSoup的问题是它太重,并且在某些URL上会消耗大量内存 我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF 有人知道吗 谢谢 您可以使用 从HTMLParser导入HTMLParser 类提取href(HTMLPasser): def句柄\u开始标记(自身、标记、属性): 如果标记==“a”: 对于键,属性中的val: 如果键==

有没有简单、健壮、快速的方法来提取python中所有锚的href属性HTML

我知道使用BeautifulSoup有一个解决方案,但BeautifulSoup的问题是它太重,并且在某些URL上会消耗大量内存

我所说的任务非常简单——只需运行HTML并返回所有锚的所有HREF

有人知道吗

谢谢

您可以使用

从HTMLParser导入HTMLParser
类提取href(HTMLPasser):
def句柄\u开始标记(自身、标记、属性):
如果标记==“a”:
对于键,属性中的val:
如果键=='href':
打印val
parser=extract_href()
提要(“

”)
from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")