Web crawler 每天检查网站列表中的所有网页
客人有一个网站A有一个合作伙伴计划。Web crawler 每天检查网站列表中的所有网页,web-crawler,link-checking,Web Crawler,Link Checking,客人有一个网站A有一个合作伙伴计划。 合作伙伴网站B有到A的链接 我需要以一定的频率(每天两次)检查所有合作伙伴站点(5000个站点)的所有网页,并提取从B到a的所有链接。然后我必须使用regexp检查url是否以某种方式构建。 我可以用PHP轻松做到这一点,但可能第三方解决方案已经面临一些严重的挑战 我想利用Band的使用率 我希望这项任务尽可能快地完成 要检查的网页可能会使业余爱好者的网页充满错误和不一致的html 我只想管理自上次检查以来更改的网页 该过程必须自动化(cron?或替代品?
合作伙伴网站B有到A的链接
我需要以一定的频率(每天两次)检查所有合作伙伴站点(5000个站点)的所有网页,并提取从B到a的所有链接。然后我必须使用regexp检查url是否以某种方式构建。
我可以用PHP轻松做到这一点,但可能第三方解决方案已经面临一些严重的挑战
- 我想利用Band的使用率
- 我希望这项任务尽可能快地完成
- 要检查的网页可能会使业余爱好者的网页充满错误和不一致的html
- 我只想管理自上次检查以来更改的网页
- 该过程必须自动化(cron?或替代品?)
- (请随意扩展此列表)
我仍然希望有一个小巧轻便的聪明解决方案 你将如何解决这样的任务 这是一些相当高的要求 哦,好吧,那没问题。。。既然你这么说了,我想我们已经把它缩小到了一个超级超级超级复杂,可以做所有的和更多的工具,而不是一个超级复杂,可以做所有的和更多的工具 撇开玩笑不谈,没有很多工具能够实现您所描述的功能。然而,有一些非常强大的工具可以为您实现目标提供一个良好的框架。您提到了PHP,但我认为您将在Java世界中获得更大的成功。特别是,我建议你退房
- 它允许您通过配置选项控制带宽使用
- 它是最快的开源爬虫之一(如果不是最快的话)
- 它擅长(在可能的范围内)
- Nutch非常擅长高效地选择需要爬网的页面,因为它确实实现了OPIC算法。您可能需要获得更细粒度的新鲜度焦点
- I want to leverage bandwith usage
- I want the task to be done the fastest possible
- The webpages to check could amateurs web pages full of errors and inconsistent html
- I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
- (feel free to expand this list)
But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...