Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/358.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用爬虫或刮板获取网站的所有URL?_Python_Url_Web Crawler_Scraper - Fatal编程技术网

Python 如何使用爬虫或刮板获取网站的所有URL?

Python 如何使用爬虫或刮板获取网站的所有URL?,python,url,web-crawler,scraper,Python,Url,Web Crawler,Scraper,我必须从一个网站上获取许多URL,然后我必须将这些URL复制到excel文件中。 我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接,每个链接内有2或3个链接,是我感兴趣的。 有什么建议吗?如果您想用Python开发解决方案,那么我可以推荐框架 就将数据插入Excel工作表而言,有直接插入的方法,请参见此处的示例:,但您也可以将数据写入CSV文件,然后将其导入Excel。您是否尝试过selenium或urllib?。urllib比selenium快 如果链接在html中。

我必须从一个网站上获取许多URL,然后我必须将这些URL复制到excel文件中。 我正在寻找一种自动的方法来做到这一点。该网站的结构有一个主页约300个链接,每个链接内有2或3个链接,是我感兴趣的。
有什么建议吗?

如果您想用Python开发解决方案,那么我可以推荐框架


就将数据插入Excel工作表而言,有直接插入的方法,请参见此处的示例:,但您也可以将数据写入CSV文件,然后将其导入Excel。

您是否尝试过selenium或urllib?。urllib比selenium快
如果链接在html中。。。你可以用漂亮的汤。这在过去对我很有效

import urllib2
from bs4 import BeautifulSoup

page = 'http://yourUrl.com'
opened = urllib2.urlopen(page)
soup = BeautifulSoup(opened)

for link in soup.find_all('a'):
    print (link.get('href'))

你可以用漂亮的汤来解析,

有关文档的更多信息,请参见此处

我不建议“刮痧”,因为您在问题中描述的工作不需要刮痧。

例如,此代码将使用urllib2库打开google主页,并以列表的形式查找该输出中的所有链接

import urllib2
from bs4 import BeautifulSoup

data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')

要处理excel文件,请查看

您是否对编程感兴趣,如果感兴趣,请查看哪种语言?是的。实际上任何语言,但我更喜欢Python