Open source 有人知道一个好的可扩展开源网络爬虫吗?

Open source 有人知道一个好的可扩展开源网络爬虫吗?,open-source,web-crawler,Open Source,Web Crawler,爬虫程序需要有一个可扩展的体系结构,以允许更改内部流程,例如实现新的步骤(预解析器、解析器等) 我找到了Heritrix项目() 但是还有其他类似的好项目吗?我最近发现了一个名为-。如果您不受平台的束缚,我过去在这方面有很好的经验 它是用Java编写的,与Lucene indexer齐头并进。是免费爬虫程序的最佳选择。它基于(以企业规模的方式)的概念构建,并由后端支持,使用(类似于Google)进行大规模数据查询。伟大的产品!我目前正在阅读曼宁的最新版本(尚未发布)中关于Hadoop的所有内容。

爬虫程序需要有一个可扩展的体系结构,以允许更改内部流程,例如实现新的步骤(预解析器、解析器等)

我找到了Heritrix项目()


但是还有其他类似的好项目吗?

我最近发现了一个名为-。

如果您不受平台的束缚,我过去在这方面有很好的经验

它是用Java编写的,与Lucene indexer齐头并进。

是免费爬虫程序的最佳选择。它基于(以企业规模的方式)的概念构建,并由后端支持,使用(类似于Google)进行大规模数据查询。伟大的产品!我目前正在阅读曼宁的最新版本(尚未发布)中关于Hadoop的所有内容。如果你走这条路,我建议你加入他们的技术审查小组,尽早得到这个标题的副本


这些都是基于Java的。如果你是一个.net的家伙(和我一样!!),那么你可能会对它更感兴趣,它们都是C#的逐类和逐api端口。

你也可以试试Scrapy


指定和运行爬虫程序非常容易。

Abot是一个很好的可扩展web爬虫程序。体系结构的每个部分都是可插拔的,让您完全控制其行为。它的开源,免费供商业和个人使用,用C#编写


@LFSR咨询公司。它们用于不同的目的…+1对于Nutch和Hadoop,如果您正在寻找分布式和可扩展的解决方案,您也可以查看solr。从外观上看,Nutch.NET完全不存在,我甚至找不到下载它的方法。Hadoop.NET也一样,没有一个文件可供下载