Java 比较Nutch和Heritrix_Java_Web Crawler_Nutch

Java 比较Nutch和Heritrix

java web-crawler

Java 比较Nutch和Heritrix,java,web-crawler,nutch,Java,Web Crawler,Nutch,我想选择上面的一个为特定网站构建爬网框架。这不是一个互联网范围的爬网。我不是在建立搜索索引，而是对从网站上抓取特定页面感兴趣有人能详细说明一下以上的利弊吗？谢谢 Nayn你的主要任务是从网站上抓取特定的页面 Nutch：基于Lucene Java构建的开源web搜索软件 Heritrix：是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目所以我认为Heritrix比Nutch更适合你的项目学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂，所以有时用Ja

我想选择上面的一个为特定网站构建爬网框架。这不是一个互联网范围的爬网。我不是在建立搜索索引，而是对从网站上抓取特定页面感兴趣

有人能详细说明一下以上的利弊吗？谢谢

Nayn

你的主要任务是从网站上抓取特定的页面

Nutch：基于Lucene Java构建的开源web搜索软件

Heritrix：是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目

所以我认为Heritrix比Nutch更适合你的项目

学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂，所以有时用Java从头开始编写一个简单的爬虫程序会比较轻松。您的主要任务是从web站点中刮取特定的页面

Nutch：基于Lucene Java构建的开源web搜索软件

Heritrix：是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目

所以我认为Heritrix比Nutch更适合你的项目

学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂，所以有时候用Java从头开始编写一个简单的爬虫程序就不那么痛苦了

，正如我提到的，我对创建页面索引不感兴趣。我想执行定向爬网（即在每个深度跟随哪些链接（regex））并缓存最后一级的页面。然后，我会利用抓取缓存页面来获取我感兴趣的数据。我不需要（想要）做完整的网站爬网。我接受这个答案，因为没有其他人提出任何建议。但我将不再使用Nutch和Heritrix，而是将Bixo用于我的用例。感谢我提到的，我对创建页面索引不感兴趣。我想执行定向爬网（即在每个深度跟随哪些链接（regex））并缓存最后一级的页面。然后，我会利用抓取缓存页面来获取我感兴趣的数据。我不需要（想要）做完整的网站爬网。我接受这个答案，因为没有其他人提出任何建议。但我将不再使用Nutch和Heritrix，而是将Bixo用于我的用例。感谢更准确地说，我对网页挖掘感兴趣，而不是建立搜索索引。我知道信息在目标网站上的位置，我也想对其进行爬网。更准确地说，我对web挖掘感兴趣，而不是建立搜索索引。我知道信息在目标网站上的位置，因此我也想对其进行爬网。