elasticsearch 使用Elasticsearch的爬虫(Nutch除外)
我试图在设置数据系统时得到一些建议。我想设置一个网络爬网系统。它可能会定期抓取几百/千个站点 我知道Nutch并使用过Nutch,但我想知道是否有人知道有比Nutch更好的爬虫 我还使用Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。您可以看看它基于Apache Storm,它不仅是一个功能齐全的爬虫程序,而且还专注于近实时的爬虫。在撰写本文时,ES通常是非常更新的,它支持ES v6.1.1(),因此您可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管它使用了ApacheNutch背后的一些思想 此外,在中,您可以找到用多种不同语言编写的许多爬虫的列表
elasticsearch 使用Elasticsearch的爬虫(Nutch除外),
elasticsearch,web-crawler,nutch,
elasticsearch,Web Crawler,Nutch,我试图在设置数据系统时得到一些建议。我想设置一个网络爬网系统。它可能会定期抓取几百/千个站点 我知道Nutch并使用过Nutch,但我想知道是否有人知道有比Nutch更好的爬虫 我还使用Elasticsearch作为索引器,很难让Nutch与更新版本的ES一起工作。您可以看看它基于Apache Storm,它不仅是一个功能齐全的爬虫程序,而且还专注于近实时的爬虫。在撰写本文时,ES通常是非常更新的,它支持ES v6.1.1(),因此您可以使用它。请记住,这是一种与Nutch不同的方法和技术,尽管