Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/silverlight/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 使用Elasticsearch的爬虫(Nutch除外)_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Web Crawler_Nutch - Fatal编程技术网 elasticsearch 使用Elasticsearch的爬虫(Nutch除外),elasticsearch,web-crawler,nutch,elasticsearch,Web Crawler,Nutch" /> elasticsearch 使用Elasticsearch的爬虫(Nutch除外),elasticsearch,web-crawler,nutch,elasticsearch,Web Crawler,Nutch" />

elasticsearch 使用Elasticsearch的爬虫(Nutch除外)

elasticsearch 使用Elasticsearch的爬虫(Nutch除外),elasticsearch,web-crawler,nutch,elasticsearch,Web Crawler,Nutch,我试图在设置数据系统时得到一些建议。我想设置一个网络爬网系统。它可能会定期抓取几百/千个站点 我知道Nutch并使用过Nutch,但我想知道是否有人知道有比Nutch更好的爬虫 我还使用Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。您可以看看它基于Apache Storm,它不仅是一个功能齐全的爬虫程序,而且还专注于近实时的爬虫。在撰写本文时,ES通常是非常更新的,它支持ES v6.1.1(),因此您可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管

我试图在设置数据系统时得到一些建议。我想设置一个网络爬网系统。它可能会定期抓取几百/千个站点

我知道Nutch并使用过Nutch,但我想知道是否有人知道有比Nutch更好的爬虫

我还使用Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。

您可以看看它基于Apache Storm,它不仅是一个功能齐全的爬虫程序,而且还专注于近实时的爬虫。在撰写本文时,ES通常是非常更新的,它支持ES v6.1.1(),因此您可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管它使用了ApacheNutch背后的一些思想

此外,在中,您可以找到用多种不同语言编写的许多爬虫的列表