elasticsearch,sharepoint,hdfs,Hadoop,Apache Spark,elasticsearch,Sharepoint,Hdfs" /> elasticsearch,sharepoint,hdfs,Hadoop,Apache Spark,elasticsearch,Sharepoint,Hdfs" />

Hadoop 如何将不同来源的文件收集到HDF中?

Hadoop 如何将不同来源的文件收集到HDF中?,hadoop,apache-spark,elasticsearch,sharepoint,hdfs,Hadoop,Apache Spark,elasticsearch,Sharepoint,Hdfs,目前我与一个致力于“搜索引擎”的团队合作,特别是与HP Idol合作 我工作的主要想法是找到一个新的开源搜索引擎,因此我开始使用Elasticsearch,但我仍然有一些问题无法找到解决方案 我需要将文件从服务器索引到Elasticsearch Sharepoint Documentum 露天 从我在网上的搜索中我发现 Talend(无法使用,因为团队不想付款) ApacheManifoldcf(开源,但有很多问题) 看到这些问题,我会继续寻找新的解决方案。 您能告诉我,我是否有一些可能

目前我与一个致力于“搜索引擎”的团队合作,特别是与HP Idol合作

我工作的主要想法是找到一个新的开源搜索引擎,因此我开始使用Elasticsearch,但我仍然有一些问题无法找到解决方案

我需要将文件从服务器索引到Elasticsearch

  • Sharepoint
  • Documentum
  • 露天
从我在网上的搜索中我发现

  • Talend(无法使用,因为团队不想付款)
  • ApacheManifoldcf(开源,但有很多问题)
看到这些问题,我会继续寻找新的解决方案。 您能告诉我,我是否有一些可能将所有源文件放入HDFS,然后使用ApacheSpark在Elasticsearch上对它们进行索引? 我也会感激你所有我从未想过的新技术


提前感谢

这可能很有用:我自己也一直在投资,我只想从一些额外的来源(如Confluence)获得大致相同的信息,以基本上打造一个知识库搜索引擎,弹性搜索似乎是一种便宜的方式。我一开始试了一下麋鹿堆,但还没有完全弄明白。您可以将其连接到Hadoop服务,我没有使用Hadoop hear,因为我没有大数据要索引。如果您正在使用Hadoop,请查看apace solr和apace Tika。与此同时,我编写了一些java脚本来搜索我的引擎,直到我找到了整个堆栈。