Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/312.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 比较Nutch和Heritrix_Java_Web Crawler_Nutch - Fatal编程技术网

Java 比较Nutch和Heritrix

Java 比较Nutch和Heritrix,java,web-crawler,nutch,Java,Web Crawler,Nutch,我想选择上面的一个为特定网站构建爬网框架。这不是一个互联网范围的爬网。我不是在建立搜索索引,而是对从网站上抓取特定页面感兴趣 有人能详细说明一下以上的利弊吗? 谢谢 Nayn你的主要任务是从网站上抓取特定的页面 Nutch:基于Lucene Java构建的开源web搜索软件 Heritrix:是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目 所以我认为Heritrix比Nutch更适合你的项目 学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂,所以有时用Ja

我想选择上面的一个为特定网站构建爬网框架。这不是一个互联网范围的爬网。我不是在建立搜索索引,而是对从网站上抓取特定页面感兴趣

有人能详细说明一下以上的利弊吗? 谢谢
Nayn

你的主要任务是从网站上抓取特定的页面

Nutch:基于Lucene Java构建的开源web搜索软件

Heritrix:是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目

所以我认为Heritrix比Nutch更适合你的项目


学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂,所以有时用Java从头开始编写一个简单的爬虫程序会比较轻松。您的主要任务是从web站点中刮取特定的页面

Nutch:基于Lucene Java构建的开源web搜索软件

Heritrix:是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目

所以我认为Heritrix比Nutch更适合你的项目


学习框架/库是一项有价值的练习。但这需要一些时间。因为您的任务不是很复杂,所以有时候用Java从头开始编写一个简单的爬虫程序就不那么痛苦了

,正如我提到的,我对创建页面索引不感兴趣。我想执行定向爬网(即在每个深度跟随哪些链接(regex))并缓存最后一级的页面。然后,我会利用抓取缓存页面来获取我感兴趣的数据。我不需要(想要)做完整的网站爬网。我接受这个答案,因为没有其他人提出任何建议。但我将不再使用Nutch和Heritrix,而是将Bixo用于我的用例。感谢我提到的,我对创建页面索引不感兴趣。我想执行定向爬网(即在每个深度跟随哪些链接(regex))并缓存最后一级的页面。然后,我会利用抓取缓存页面来获取我感兴趣的数据。我不需要(想要)做完整的网站爬网。我接受这个答案,因为没有其他人提出任何建议。但我将不再使用Nutch和Heritrix,而是将Bixo用于我的用例。感谢更准确地说,我对网页挖掘感兴趣,而不是建立搜索索引。我知道信息在目标网站上的位置,我也想对其进行爬网。更准确地说,我对web挖掘感兴趣,而不是建立搜索索引。我知道信息在目标网站上的位置,因此我也想对其进行爬网。