Python 如何提取所有url';什么是网站上的?
我正在用Python编写一个程序来提取给定网站的所有URL。所有url都来自一个站点,而不是一个页面。Python 如何提取所有url';什么是网站上的?,python,unix,Python,Unix,我正在用Python编写一个程序来提取给定网站的所有URL。所有url都来自一个站点,而不是一个页面。 我想我不是第一个想这样做的人,我想知道是否有现成的解决方案,或者我是否必须自己编写代码。这并不容易,但一个不错的起点是研究这两个库: 我没有看到任何现成的脚本可以在快速的谷歌搜索中实现这一点 使用scrapy框架使这几乎变得微不足道 耗时的部分将是学习如何使用scrapy。他们的教程很棒,不应该花你那么长时间 创建一个其他人可以使用的解决方案是成为编程社区一员的乐趣之一。如果刮板不存在,你
我想我不是第一个想这样做的人,我想知道是否有现成的解决方案,或者我是否必须自己编写代码。这并不容易,但一个不错的起点是研究这两个库:
我没有看到任何现成的脚本可以在快速的谷歌搜索中实现这一点 使用
scrapy
框架使这几乎变得微不足道
耗时的部分将是学习如何使用scrapy。他们的教程很棒,不应该花你那么长时间
创建一个其他人可以使用的解决方案是成为编程社区一员的乐趣之一。如果刮板不存在,你可以创建一个,每个人都可以使用它从一个网站获取所有链接 给出的答案是我建议的(+1) 但如果您真的想做一些快速简单的事情,并且您在*NIX平台上,请尝试以下方法:
lynx -dump YOUR_URL | grep http
其中,您的URL是您要检查的URL。这应该可以为您提供所有想要的链接(除了未完全编写的链接)您首先必须使用或之类的软件包下载页面的HTML内容
之后,您可以使用来提取URL。事实上,演示了如何提取
PyQuery中包含的所有链接也是一个救命稻草。。。您将能够像在jQueryTanks中一样查询DOM以获得答案
for link in soup.find_all('a'):
print(link.get('href'))
# http://example.com/elsie
# http://example.com/lacie
# http://example.com/tillie