使用re.findall在Python中创建链接抓取器

使用re.findall在Python中创建链接抓取器,python,Python,因此,我将尝试为一位朋友创建这个刮板。 基本上,我希望它采取从一个网站的所有链接。就这样 我知道这大概是以下几点: links = re.findall() print links 我在网上找到了re.finall,但不知道如何使用它! 任何指向正确方向的指针都会有很大帮助 试试看。它处理蹩脚的HTML,并为解析HTML提供了一个非常好的界面。另外,它真的很容易使用。这是你的刮刀(直的): 谢谢,但我使用它的困境是,我只测试它与。我有VPS,但我不想用它来做这个。另外,我的朋友将无法使用它。我

因此,我将尝试为一位朋友创建这个刮板。 基本上,我希望它采取从一个网站的所有链接。就这样

我知道这大概是以下几点:

links = re.findall()
print links
我在网上找到了re.finall,但不知道如何使用它! 任何指向正确方向的指针都会有很大帮助

试试看。它处理蹩脚的HTML,并为解析HTML提供了一个非常好的界面。另外,它真的很容易使用。这是你的刮刀(直的):


谢谢,但我使用它的困境是,我只测试它与。我有VPS,但我不想用它来做这个。另外,我的朋友将无法使用它。我建议您下载并安装Python,你可能已经有了。另外,codeacademy对测试链接抓取器也不太合适,因为它无法访问外国URL。如果你的朋友真的不能安装Python和BeautifulSoup,你可以给他一个带有
py2app
py2exe
的预构建程序。
for link in soup.find_all('a'):
    print(link.get('href'))