<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 爬虫&x2B；弹性搜索积分_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Web Crawler_Search Engine_Nutch

elasticsearch 爬虫&x2B；弹性搜索积分

web-crawler

elasticsearch 爬虫&x2B；弹性搜索积分,elasticsearch,web-crawler,search-engine,nutch,elasticsearch,Web Crawler,Search Engine,Nutch,我无法找到，如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点，由于nutch应该能够从1.8版直接将数据导出到elasticsearch（），所以我再次尝试使用nutch。然而，我没有成功。在尝试调用 $ bin/nutch elasticindex 我得到： Error: Could not find or load main class elasticindex 我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elas

我无法找到，如何抓取网站和索引数据到elasticsearch。我在nutch+solr组合中成功地做到了这一点，由于nutch应该能够从1.8版直接将数据导出到elasticsearch（），所以我再次尝试使用nutch。然而，我没有成功。在尝试调用

$ bin/nutch elasticindex

我得到：

Error: Could not find or load main class elasticindex

我不坚持使用nutch。我只需要最简单的方法来抓取网站并将其索引到elasticsearch。问题是，我找不到任何循序渐进的教程，而且我对这些技术非常陌生

所以问题是-将crawler集成到elasticsearch中最简单的解决方案是什么？如果可能的话，我将非常感谢任何一个分步解决方案。

您看过River Web插件吗

它提供了一个很好的How-To部分，包括创建所需的索引、调度（基于Quartz）、身份验证（支持basic和NTLM）、元数据提取等等

可能也值得一看elasticsearch river插件概述：

由于River插件已被弃用，因此可能值得一看。

您可以使用Hadoop评估将元数据索引到Elasticsearch中：在处理大量数据时，Hadoop提供了并行数据摄取的所有能力

下面是一个使用级联直接索引到Elasticsearch的示例：

该过程涉及使用Hadoop集群（本例中为EMR）运行级联应用程序，该应用程序将JSON元数据直接索引到Elasticsearch中

级联源代码也可用于了解如何在Elasticsearch中处理数据摄取。

您使用的elasticindex是什么？虽然这在理论上可以回答这个问题，但它不存在，在这里包含答案的基本部分，并提供链接供参考。但是您可以使用River Web作为独立的