Python 如何使用爬虫或刮板获取网站的所有URL？_Python_Url_Web Crawler_Scraper

Python 如何使用爬虫或刮板获取网站的所有URL？

python url web-crawler

Python 如何使用爬虫或刮板获取网站的所有URL？,python,url,web-crawler,scraper,Python,Url,Web Crawler,Scraper,我必须从一个网站上获取许多URL，然后我必须将这些URL复制到excel文件中。我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接，每个链接内有2或3个链接，是我感兴趣的。有什么建议吗？如果您想用Python开发解决方案，那么我可以推荐框架就将数据插入Excel工作表而言，有直接插入的方法，请参见此处的示例：，但您也可以将数据写入CSV文件，然后将其导入Excel。您是否尝试过selenium或urllib？。urllib比selenium快如果链接在html中。

我必须从一个网站上获取许多URL，然后我必须将这些URL复制到excel文件中。我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接，每个链接内有2或3个链接，是我感兴趣的。

有什么建议吗？

如果您想用Python开发解决方案，那么我可以推荐框架

就将数据插入Excel工作表而言，有直接插入的方法，请参见此处的示例：，但您也可以将数据写入CSV文件，然后将其导入Excel。

您是否尝试过selenium或urllib？。urllib比selenium快

如果链接在html中。。。你可以用漂亮的汤。这在过去对我很有效

import urllib2
from bs4 import BeautifulSoup

page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)

for link in soup.find_all('a'):
    print (link.get('href'))

你可以用漂亮的汤来解析，

有关文档的更多信息，请参见此处

我不建议“刮痧”，因为您在问题中描述的工作不需要刮痧。

例如，此代码将使用urllib2库打开google主页，并以列表的形式查找该输出中的所有链接

import urllib2
from bs4 import BeautifulSoup

data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')

要处理excel文件，请查看

您是否对编程感兴趣，如果感兴趣，请查看哪种语言？是的。实际上任何语言，但我更喜欢Python