Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/elixir/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 递归使用Scrapy从网站上刮取网页_Python_Web Scraping_Scrapy - Fatal编程技术网

Python 递归使用Scrapy从网站上刮取网页

Python 递归使用Scrapy从网站上刮取网页,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我最近开始与Scrapy合作。我试图收集一些信息,从一个大名单分为几页(约50)。我可以很容易地从第一页(包括start\u URL列表中的第一页)中提取我想要的内容。但是,我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗?有人举过这样的例子吗 谢谢 为什么不将所有链接添加到50页?页面的URL是连续的,比如www.site.com/page=1,www.site.com/page=2,还是它们都是不同的?你能给我看看你现在的代码吗?为什么不把

我最近开始与Scrapy合作。我试图收集一些信息,从一个大名单分为几页(约50)。我可以很容易地从第一页(包括
start\u URL
列表中的第一页)中提取我想要的内容。但是,我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗?有人举过这样的例子吗


谢谢

为什么不将所有链接添加到50页?页面的URL是连续的,比如
www.site.com/page=1
www.site.com/page=2
,还是它们都是不同的?你能给我看看你现在的代码吗?

为什么不把所有链接添加到50页?页面的URL是连续的,比如
www.site.com/page=1
www.site.com/page=2
,还是它们都是不同的?你能给我看看你现在的代码吗?

使用urllib2下载一个页面。然后使用re(正则表达式)或BeautifulSoup(HTML解析器)查找指向所需下一页的链接。用urllib2下载。冲洗并重复


Scapy很不错,但是你不需要它来做你想做的事情

使用urllib2下载页面。然后使用re(正则表达式)或BeautifulSoup(HTML解析器)查找指向所需下一页的链接。用urllib2下载。冲洗并重复


Scapy很棒,但你不需要它来做你想做的事

你想做什么?在项目符号列表中解释流程。已经有很多了你想做什么?在项目符号列表中解释流程。已经有相当多的问题了