Python 如何使用爬虫或刮板获取网站的所有URL?
我必须从一个网站上获取许多URL,然后我必须将这些URL复制到excel文件中。 我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接,每个链接内有2或3个链接,是我感兴趣的。Python 如何使用爬虫或刮板获取网站的所有URL?,python,url,web-crawler,scraper,Python,Url,Web Crawler,Scraper,我必须从一个网站上获取许多URL,然后我必须将这些URL复制到excel文件中。 我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接,每个链接内有2或3个链接,是我感兴趣的。 有什么建议吗?如果您想用Python开发解决方案,那么我可以推荐框架 就将数据插入Excel工作表而言,有直接插入的方法,请参见此处的示例:,但您也可以将数据写入CSV文件,然后将其导入Excel。您是否尝试过selenium或urllib?。urllib比selenium快 如果链接在html中。
有什么建议吗?如果您想用Python开发解决方案,那么我可以推荐框架
就将数据插入Excel工作表而言,有直接插入的方法,请参见此处的示例:,但您也可以将数据写入CSV文件,然后将其导入Excel。您是否尝试过selenium或urllib?。urllib比selenium快
如果链接在html中。。。你可以用漂亮的汤。这在过去对我很有效
import urllib2
from bs4 import BeautifulSoup
page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)
for link in soup.find_all('a'):
print (link.get('href'))
你可以用漂亮的汤来解析, 有关文档的更多信息,请参见此处 我不建议“刮痧”,因为您在问题中描述的工作不需要刮痧。 例如,此代码将使用urllib2库打开google主页,并以列表的形式查找该输出中的所有链接
import urllib2
from bs4 import BeautifulSoup
data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')
要处理excel文件,请查看您是否对编程感兴趣,如果感兴趣,请查看哪种语言?是的。实际上任何语言,但我更喜欢Python