Python 递归使用Scrapy从网站上刮取网页
我最近开始与Scrapy合作。我试图收集一些信息,从一个大名单分为几页(约50)。我可以很容易地从第一页(包括Python 递归使用Scrapy从网站上刮取网页,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我最近开始与Scrapy合作。我试图收集一些信息,从一个大名单分为几页(约50)。我可以很容易地从第一页(包括start\u URL列表中的第一页)中提取我想要的内容。但是,我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗?有人举过这样的例子吗 谢谢 为什么不将所有链接添加到50页?页面的URL是连续的,比如www.site.com/page=1,www.site.com/page=2,还是它们都是不同的?你能给我看看你现在的代码吗?为什么不把
start\u URL
列表中的第一页)中提取我想要的内容。但是,我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗?有人举过这样的例子吗
谢谢 为什么不将所有链接添加到50页?页面的URL是连续的,比如
www.site.com/page=1
,www.site.com/page=2
,还是它们都是不同的?你能给我看看你现在的代码吗?为什么不把所有链接添加到50页?页面的URL是连续的,比如www.site.com/page=1
,www.site.com/page=2
,还是它们都是不同的?你能给我看看你现在的代码吗?使用urllib2下载一个页面。然后使用re(正则表达式)或BeautifulSoup(HTML解析器)查找指向所需下一页的链接。用urllib2下载。冲洗并重复
Scapy很不错,但是你不需要它来做你想做的事情使用urllib2下载页面。然后使用re(正则表达式)或BeautifulSoup(HTML解析器)查找指向所需下一页的链接。用urllib2下载。冲洗并重复
Scapy很棒,但你不需要它来做你想做的事你想做什么?在项目符号列表中解释流程。已经有很多了你想做什么?在项目符号列表中解释流程。已经有相当多的问题了