Web scraping 是否存在任何开放的、简单可扩展的网络爬虫?

Web scraping 是否存在任何开放的、简单可扩展的网络爬虫?,web-scraping,web-crawler,nutch,Web Scraping,Web Crawler,Nutch,我寻找一个网络爬虫解决方案,可以是足够成熟的,可以简单地扩展。我对以下功能感兴趣。。。或者扩展爬虫以满足它们的可能性: 部分只是为了阅读几个网站的提要 删除这些网站的内容 如果该网站有一个档案,我想抓取和索引它以及 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准 如果发现可能符合我兴趣的东西,应该可以通知我 爬虫程序不应该通过太多的请求攻击服务器来杀死服务器,它应该聪明地进行爬虫 爬虫程序应该对异常的站点和服务器具有健壮性 上面这些事情可以一个接一个地完成,而无需付出

我寻找一个网络爬虫解决方案,可以是足够成熟的,可以简单地扩展。我对以下功能感兴趣。。。或者扩展爬虫以满足它们的可能性:

  • 部分只是为了阅读几个网站的提要
  • 删除这些网站的内容
  • 如果该网站有一个档案,我想抓取和索引它以及
  • 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
  • 如果发现可能符合我兴趣的东西,应该可以通知我
  • 爬虫程序不应该通过太多的请求攻击服务器来杀死服务器,它应该聪明地进行爬虫
  • 爬虫程序应该对异常的站点和服务器具有健壮性

上面这些事情可以一个接一个地完成,而无需付出很大的努力,但我对任何提供可定制、可扩展爬虫的解决方案都感兴趣。我听说过ApacheNutch,但到目前为止对该项目非常不确定。你有这方面的经验吗?你能推荐其他选择吗?

我衷心推荐。它非常灵活,我认为它是经过战斗测试的最免费的开源爬虫程序,因为它是Internet Archive使用的爬虫程序。

您应该能够找到适合您需要的东西。

快速搜索Powd up,这是一个web spider框架,似乎适合您的要求-特别是扩展性。用红宝石书写。

希望一切顺利

我在为我的克鲁格初创公司建立开源项目索引时,广泛使用了Nutch。这是一个很难定制的整体设计。有一个插件体系结构,但是插件和系统之间的交互是复杂而脆弱的

由于这段经历,并且需要更灵活的东西,我开始了Bixo项目——一个web挖掘工具包

它是否适合您取决于以下因素的权重:

  • 您需要多少灵活性(+)
  • 它应该有多成熟(-)
  • 是否需要扩展(+)的能力
  • 如果您熟悉Java/Hadoop(+)

  • 这些东西仅仅是用java创建的吗?这篇文章的标题是“用java编写的开源Web爬虫”。但是,你可以找到用其他语言构建的网络爬虫,它们可以为你提供你所需要的。这似乎是一个好东西,我喜欢它是ruby,我喜欢,作者为爬虫创建了一个很好的dsl。但与nutch相比,我仍然看不到rss提要支持和类似pdf爬行的东西。但它是可扩展的。谢谢分享海葵的参考资料。