Hadoop 如何将不同来源的文件收集到HDF中？_Hadoop_Apache Spark_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Sharepoint_Hdfs

Hadoop 如何将不同来源的文件收集到HDF中？

hadoop apache-spark sharepoint

Hadoop 如何将不同来源的文件收集到HDF中？,hadoop,apache-spark,elasticsearch,sharepoint,hdfs,Hadoop,Apache Spark,elasticsearch,Sharepoint,Hdfs,目前我与一个致力于“搜索引擎”的团队合作，特别是与HP Idol合作我工作的主要想法是找到一个新的开源搜索引擎，因此我开始使用Elasticsearch，但我仍然有一些问题无法找到解决方案我需要将文件从服务器索引到Elasticsearch Sharepoint Documentum 露天从我在网上的搜索中我发现 Talend（无法使用，因为团队不想付款） ApacheManifoldcf（开源，但有很多问题）看到这些问题，我会继续寻找新的解决方案。您能告诉我，我是否有一些可能

目前我与一个致力于“搜索引擎”的团队合作，特别是与HP Idol合作

我工作的主要想法是找到一个新的开源搜索引擎，因此我开始使用Elasticsearch，但我仍然有一些问题无法找到解决方案

我需要将文件从服务器索引到Elasticsearch

Sharepoint
Documentum
露天

从我在网上的搜索中我发现

Talend（无法使用，因为团队不想付款）
ApacheManifoldcf（开源，但有很多问题）

看到这些问题，我会继续寻找新的解决方案。您能告诉我，我是否有一些可能将所有源文件放入HDFS，然后使用ApacheSpark在Elasticsearch上对它们进行索引？我也会感激你所有我从未想过的新技术

提前感谢

这可能很有用：我自己也一直在投资，我只想从一些额外的来源（如Confluence）获得大致相同的信息，以基本上打造一个知识库搜索引擎，弹性搜索似乎是一种便宜的方式。我一开始试了一下麋鹿堆，但还没有完全弄明白。您可以将其连接到Hadoop服务，我没有使用Hadoop hear，因为我没有大数据要索引。如果您正在使用Hadoop，请查看apace solr和apace Tika。与此同时，我编写了一些java脚本来搜索我的引擎，直到我找到了整个堆栈。