elasticsearch 爬虫&x2B;弹性搜索积分,elasticsearch,web-crawler,search-engine,nutch,elasticsearch,Web Crawler,Search Engine,Nutch" /> elasticsearch 爬虫&x2B;弹性搜索积分,elasticsearch,web-crawler,search-engine,nutch,elasticsearch,Web Crawler,Search Engine,Nutch" />

elasticsearch 爬虫&x2B;弹性搜索积分

elasticsearch 爬虫&x2B;弹性搜索积分,elasticsearch,web-crawler,search-engine,nutch,elasticsearch,Web Crawler,Search Engine,Nutch,我无法找到,如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点,由于nutch应该能够从1.8版直接将数据导出到elasticsearch(),所以我再次尝试使用nutch。然而,我没有成功。在尝试调用 $ bin/nutch elasticindex 我得到: Error: Could not find or load main class elasticindex 我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elas

我无法找到,如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点,由于nutch应该能够从1.8版直接将数据导出到elasticsearch(),所以我再次尝试使用nutch。然而,我没有成功。在尝试调用

$ bin/nutch elasticindex
我得到:

Error: Could not find or load main class elasticindex
我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elasticsearch。问题是,我找不到任何循序渐进的教程,而且我对这些技术非常陌生


所以问题是-将crawler集成到elasticsearch中最简单的解决方案是什么?如果可能的话,我将非常感谢任何一个分步解决方案。

您看过River Web插件吗

它提供了一个很好的How-To部分,包括创建所需的索引、调度(基于Quartz)、身份验证(支持basic和NTLM)、元数据提取等等

可能也值得一看elasticsearch river插件概述:

由于River插件已被弃用,因此可能值得一看。

您可以使用Hadoop评估将元数据索引到Elasticsearch中: 在处理大量数据时,Hadoop提供了并行数据摄取的所有能力

下面是一个使用级联直接索引到Elasticsearch的示例:

该过程涉及使用Hadoop集群(本例中为EMR)运行级联应用程序,该应用程序将JSON元数据直接索引到Elasticsearch中


级联源代码也可用于了解如何在Elasticsearch中处理数据摄取。

您使用的elasticindex是什么?虽然这在理论上可以回答这个问题,但它不存在,在这里包含答案的基本部分,并提供链接供参考。但是您可以使用River Web作为独立的