如何用Python制作一个简单的URL提取器?

如何用Python制作一个简单的URL提取器?,python,hyperlink,web-crawler,Python,Hyperlink,Web Crawler,我应该如何从一个网页开始,比如说从DMOZ.org的根目录开始,为每个附加到它的url编制索引。然后将这些链接存储在文本文件中。我不想要内容,只想要链接本身。举个例子就好了 如果您坚持要重新发明轮子,请使用类似BeautifulSoup的html解析器来获取所有标记。与类似问题相关。例如,这将打印以下链接: 输出: Stack Exchange -> http://stackexchange.com log in -> /users/login?returnurl=%2fquesti

我应该如何从一个网页开始,比如说从DMOZ.org的根目录开始,为每个附加到它的url编制索引。然后将这些链接存储在文本文件中。我不想要内容,只想要链接本身。举个例子就好了

如果您坚持要重新发明轮子,请使用类似BeautifulSoup的html解析器来获取所有标记。与类似问题相关。

例如,这将打印以下链接:

输出:

Stack Exchange -> http://stackexchange.com
log in -> /users/login?returnurl=%2fquestions%2f3884419%2f
careers -> http://careers.stackoverflow.com
meta -> http://meta.stackoverflow.com
...
ID: flag-post-3884419
None -> /posts/3884419/revisions
...

是一个用于web爬行的Python框架。这里有很多例子:

为什么在python中需要这个
wget
可以做到这一点,而无需在最好的操作系统(Windows,而不是Linux:)上重新发明wheelI程序。多个级别。深度未定。Wget可用于Windows。如果链接中的“href”为,则应使用
,而不是
链接。具有_键
<代码>has_key
已被弃用并从python 3中删除。对于我(Py 2.6.5,BS 3.0.8)
'href'在链接中返回
False
,即使
链接['href']
会给我一个URL。不过,我对词典的工作原理知之甚少
中的code>'href'看起来确实有效,但很难看。
Stack Exchange -> http://stackexchange.com
log in -> /users/login?returnurl=%2fquestions%2f3884419%2f
careers -> http://careers.stackoverflow.com
meta -> http://meta.stackoverflow.com
...
ID: flag-post-3884419
None -> /posts/3884419/revisions
...