Web crawler 网络爬虫更新策略
我想从某些网站抓取有用的资源(如背景图片…)。这不是一项艰苦的工作,特别是在像scrapy这样的优秀项目的帮助下 这里的问题是,我不只是想爬这个网站一次。我还希望保持爬网长期运行,并爬网更新的资源。所以我想知道,对于一个网络爬虫来说,有没有什么好的策略来更新网页 我想到了一个粗略的算法。我将爬行过程分为几轮。每轮URL存储库都将为爬虫程序提供一定数量(比如10000个)的URL进行爬网。然后是下一轮。具体步骤如下:Web crawler 网络爬虫更新策略,web-crawler,scrapy,Web Crawler,Scrapy,我想从某些网站抓取有用的资源(如背景图片…)。这不是一项艰苦的工作,特别是在像scrapy这样的优秀项目的帮助下 这里的问题是,我不只是想爬这个网站一次。我还希望保持爬网长期运行,并爬网更新的资源。所以我想知道,对于一个网络爬虫来说,有没有什么好的策略来更新网页 我想到了一个粗略的算法。我将爬行过程分为几轮。每轮URL存储库都将为爬虫程序提供一定数量(比如10000个)的URL进行爬网。然后是下一轮。具体步骤如下: 爬虫程序将开始URL添加到URL存储库 爬虫程序向URL存储库请求最多N个要爬网
我想推荐克里斯托弗·奥尔斯顿和马克·纳乔克的作品。这是一个很好的调查,涵盖了您感兴趣的主题(批量爬网模型和爬网排序)。pdf提供的文章:请参阅frontera,了解Scrapy的实现