Web scraping 是否存在任何开放的、简单可扩展的网络爬虫？_Web Scraping_Web Crawler_Nutch

Web scraping 是否存在任何开放的、简单可扩展的网络爬虫？

web-scraping web-crawler

Web scraping 是否存在任何开放的、简单可扩展的网络爬虫？,web-scraping,web-crawler,nutch,Web Scraping,Web Crawler,Nutch,我寻找一个网络爬虫解决方案，可以是足够成熟的，可以简单地扩展。我对以下功能感兴趣。。。或者扩展爬虫以满足它们的可能性：部分只是为了阅读几个网站的提要删除这些网站的内容如果该网站有一个档案，我想抓取和索引它以及爬虫应该能够为我探索网络的一部分，它应该能够决定哪些网站符合给定的标准如果发现可能符合我兴趣的东西，应该可以通知我爬虫程序不应该通过太多的请求攻击服务器来杀死服务器，它应该聪明地进行爬虫爬虫程序应该对异常的站点和服务器具有健壮性上面这些事情可以一个接一个地完成，而无需付出

我寻找一个网络爬虫解决方案，可以是足够成熟的，可以简单地扩展。我对以下功能感兴趣。。。或者扩展爬虫以满足它们的可能性：

部分只是为了阅读几个网站的提要
删除这些网站的内容
如果该网站有一个档案，我想抓取和索引它以及
爬虫应该能够为我探索网络的一部分，它应该能够决定哪些网站符合给定的标准
如果发现可能符合我兴趣的东西，应该可以通知我
爬虫程序不应该通过太多的请求攻击服务器来杀死服务器，它应该聪明地进行爬虫
爬虫程序应该对异常的站点和服务器具有健壮性

上面这些事情可以一个接一个地完成，而无需付出很大的努力，但我对任何提供可定制、可扩展爬虫的解决方案都感兴趣。我听说过ApacheNutch，但到目前为止对该项目非常不确定。你有这方面的经验吗？你能推荐其他选择吗？

我衷心推荐。它非常灵活，我认为它是经过战斗测试的最免费的开源爬虫程序，因为它是Internet Archive使用的爬虫程序。

您应该能够找到适合您需要的东西。

快速搜索Powd up，这是一个web spider框架，似乎适合您的要求-特别是扩展性。用红宝石书写。

希望一切顺利

我在为我的克鲁格初创公司建立开源项目索引时，广泛使用了Nutch。这是一个很难定制的整体设计。有一个插件体系结构，但是插件和系统之间的交互是复杂而脆弱的

由于这段经历，并且需要更灵活的东西，我开始了Bixo项目——一个web挖掘工具包

它是否适合您取决于以下因素的权重：

您需要多少灵活性（+）

它应该有多成熟（-）

是否需要扩展（+）的能力

如果您熟悉Java/Hadoop（+）

这些东西仅仅是用java创建的吗？这篇文章的标题是“用java编写的开源Web爬虫”。但是，你可以找到用其他语言构建的网络爬虫，它们可以为你提供你所需要的。这似乎是一个好东西，我喜欢它是ruby，我喜欢，作者为爬虫创建了一个很好的dsl。但与nutch相比，我仍然看不到rss提要支持和类似pdf爬行的东西。但它是可扩展的。谢谢分享海葵的参考资料。