Python 递归使用Scrapy从网站上刮取网页_Python_Web Scraping_Scrapy

Python 递归使用Scrapy从网站上刮取网页

python web-scraping scrapy

Python 递归使用Scrapy从网站上刮取网页,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我最近开始与Scrapy合作。我试图收集一些信息，从一个大名单分为几页（约50）。我可以很容易地从第一页（包括start\u URL列表中的第一页）中提取我想要的内容。但是，我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗？有人举过这样的例子吗谢谢为什么不将所有链接添加到50页？页面的URL是连续的，比如www.site.com/page=1，www.site.com/page=2，还是它们都是不同的？你能给我看看你现在的代码吗？为什么不把

我最近开始与Scrapy合作。我试图收集一些信息，从一个大名单分为几页（约50）。我可以很容易地从第一页（包括

start\u URL

列表中的第一页）中提取我想要的内容。但是，我不想将这50页的所有链接都添加到此列表中。我需要一种更有活力的方式。有人知道我如何迭代地抓取网页吗？有人举过这样的例子吗

谢谢

为什么不将所有链接添加到50页？页面的URL是连续的，比如

www.site.com/page=1

，

www.site.com/page=2

，还是它们都是不同的？你能给我看看你现在的代码吗？

为什么不把所有链接添加到50页？页面的URL是连续的，比如

www.site.com/page=1

，

www.site.com/page=2

，还是它们都是不同的？你能给我看看你现在的代码吗？

使用urllib2下载一个页面。然后使用re（正则表达式）或BeautifulSoup（HTML解析器）查找指向所需下一页的链接。用urllib2下载。冲洗并重复

Scapy很不错，但是你不需要它来做你想做的事情

使用urllib2下载页面。然后使用re（正则表达式）或BeautifulSoup（HTML解析器）查找指向所需下一页的链接。用urllib2下载。冲洗并重复

Scapy很棒，但你不需要它来做你想做的事

你想做什么？在项目符号列表中解释流程。已经有很多了你想做什么？在项目符号列表中解释流程。已经有相当多的问题了