Web crawler 商业用途的最佳网络爬虫?

Web crawler 商业用途的最佳网络爬虫?,web-crawler,nutch,Web Crawler,Nutch,我正在开发一个可以抓取数千万网页的系统,该系统将继续运行。 我宁愿不要从头开始开发爬虫 哪些开源网络爬虫符合以下标准: 可定制 高度可扩展 轻松抓取ajax网站 聪明地爬行 遵守礼貌 如果我遗漏了任何标准,请评估您认为重要的其他标准 我有以下开源爬虫的列表。他们是否具备上述特征 发痒的 机械化 坚果 赫里特里克斯 亚麻 httrack 蜘蛛侠 Searcharoo 我已经和nutch合作了一段时间了,它似乎非常符合这个标准。插件系统允许你抓取新材料,并易于部署。有一件事我很难让它使用多个代理

我正在开发一个可以抓取数千万网页的系统,该系统将继续运行。 我宁愿不要从头开始开发爬虫

哪些开源网络爬虫符合以下标准:

  • 可定制
  • 高度可扩展
  • 轻松抓取ajax网站
  • 聪明地爬行
  • 遵守礼貌
如果我遗漏了任何标准,请评估您认为重要的其他标准

我有以下开源爬虫的列表。他们是否具备上述特征

  • 发痒的
  • 机械化
  • 坚果
  • 赫里特里克斯
  • 亚麻
  • httrack
  • 蜘蛛侠
  • Searcharoo

  • 我已经和nutch合作了一段时间了,它似乎非常符合这个标准。插件系统允许你抓取新材料,并易于部署。有一件事我很难让它使用多个代理,但总的来说,它是非常可定制的

    +1 Wana做类似的事情……渴望了解您对该查询的响应……如果通过提供服务建议解决了疑问/查询,那么为什么不响应它!!!!