如何用Python制作一个简单的URL提取器？_Python_Hyperlink_Web Crawler

如何用Python制作一个简单的URL提取器？

python hyperlink web-crawler

如何用Python制作一个简单的URL提取器？,python,hyperlink,web-crawler,Python,Hyperlink,Web Crawler,我应该如何从一个网页开始，比如说从DMOZ.org的根目录开始，为每个附加到它的url编制索引。然后将这些链接存储在文本文件中。我不想要内容，只想要链接本身。举个例子就好了如果您坚持要重新发明轮子，请使用类似BeautifulSoup的html解析器来获取所有标记。与类似问题相关。例如，这将打印以下链接：输出： Stack Exchange -> http://stackexchange.com log in -> /users/login?returnurl=%2fquesti

我应该如何从一个网页开始，比如说从DMOZ.org的根目录开始，为每个附加到它的url编制索引。然后将这些链接存储在文本文件中。我不想要内容，只想要链接本身。举个例子就好了

如果您坚持要重新发明轮子，请使用类似BeautifulSoup的html解析器来获取所有标记。与类似问题相关。

例如，这将打印以下链接：

输出：

Stack Exchange -> http://stackexchange.com
log in -> /users/login?returnurl=%2fquestions%2f3884419%2f
careers -> http://careers.stackoverflow.com
meta -> http://meta.stackoverflow.com
...
ID: flag-post-3884419
None -> /posts/3884419/revisions
...

是一个用于web爬行的Python框架。这里有很多例子：

为什么在python中需要这个

wget

可以做到这一点，而无需在最好的操作系统（Windows，而不是Linux:）上重新发明wheelI程序。多个级别。深度未定。Wget可用于Windows。如果链接中的“href”为，则应使用

，而不是链接。具有_键
<代码>has_key

已被弃用并从python 3中删除。对于我（Py 2.6.5，BS 3.0.8）

'href'在链接中返回False
，即使链接['href']
会给我一个URL。不过，我对词典的工作原理知之甚少

中的code>'href'看起来确实有效，但很难看。
Stack Exchange -> http://stackexchange.com
log in -> /users/login?returnurl=%2fquestions%2f3884419%2f
careers -> http://careers.stackoverflow.com
meta -> http://meta.stackoverflow.com
...
ID: flag-post-3884419
None -> /posts/3884419/revisions
...