Web crawler 每天检查网站列表中的所有网页

Web crawler 每天检查网站列表中的所有网页,web-crawler,link-checking,Web Crawler,Link Checking,客人有一个网站A有一个合作伙伴计划。 合作伙伴网站B有到A的链接 我需要以一定的频率(每天两次)检查所有合作伙伴站点(5000个站点)的所有网页,并提取从B到a的所有链接。然后我必须使用regexp检查url是否以某种方式构建。 我可以用PHP轻松做到这一点,但可能第三方解决方案已经面临一些严重的挑战 我想利用Band的使用率 我希望这项任务尽可能快地完成 要检查的网页可能会使业余爱好者的网页充满错误和不一致的html 我只想管理自上次检查以来更改的网页 该过程必须自动化(cron?或替代品?

客人有一个网站A有一个合作伙伴计划。
合作伙伴网站B有到A的链接
我需要以一定的频率(每天两次)检查所有合作伙伴站点(5000个站点)的所有网页,并提取从Ba的所有链接。然后我必须使用regexp检查url是否以某种方式构建。

我可以用PHP轻松做到这一点,但可能第三方解决方案已经面临一些严重的挑战

  • 我想利用Band的使用率
  • 我希望这项任务尽可能快地完成
  • 要检查的网页可能会使业余爱好者的网页充满错误和不一致的html
  • 我只想管理自上次检查以来更改的网页
  • 该过程必须自动化(cron?或替代品?)
  • (请随意扩展此列表)
但我不想构建一个超级复制器,一个超复杂的超复杂的超复杂的超复杂的超复杂的超复杂的超复杂的超复杂的超复杂的超复杂的超复杂工具…
我仍然希望有一个小巧轻便的聪明解决方案

你将如何解决这样的任务

这是一些相当高的要求

哦,好吧,那没问题。。。既然你这么说了,我想我们已经把它缩小到了一个超级超级超级复杂,可以做所有的和更多的工具,而不是一个超级复杂,可以做所有的和更多的工具

撇开玩笑不谈,没有很多工具能够实现您所描述的功能。然而,有一些非常强大的工具可以为您实现目标提供一个良好的框架。您提到了PHP,但我认为您将在Java世界中获得更大的成功。特别是,我建议你退房

  • 它允许您通过配置选项控制带宽使用
  • 它是最快的开源爬虫之一(如果不是最快的话)
  • 它擅长(在可能的范围内)
  • Nutch非常擅长高效地选择需要爬网的页面,因为它确实实现了OPIC算法。您可能需要获得更细粒度的新鲜度焦点
我希望这能有所帮助:)。

:)当我说一款超级duper mega ultra Professional的时候,它可以做我想做的一切和更多的工具。好的,我知道我的需求可能需要一个健壮的工具,比如Nutch。我会在周末玩它。。。谢谢
 - I want to leverage bandwith usage
 - I want the task to be done the fastest possible
 - The webpages to check could amateurs web pages full of errors and inconsistent html
 - I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
 - (feel free to expand this list)
But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...