elasticsearch,hdfs,Hadoop,Solr,elasticsearch,Hdfs" /> elasticsearch,hdfs,Hadoop,Solr,elasticsearch,Hdfs" />

Hadoop Solr或ElasticSearch是否可以配置为以同样支持MapReduce的方式将HDFS用作其持久层?

Hadoop Solr或ElasticSearch是否可以配置为以同样支持MapReduce的方式将HDFS用作其持久层?,hadoop,solr,elasticsearch,hdfs,Hadoop,Solr,elasticsearch,Hdfs,我有一个大的索引,我需要对其执行近实时更新和全文搜索,但我也希望能够对该数据运行map reduce作业。不需要维护两个单独的数据副本就可以做到这一点吗?(例如,一份在Solr中,另一份在HDFS中) 它看起来像,但看起来不太适合map reduce,因为它只是以一种很难从Hadoop map reduce中读取的方式将索引存储在HDFS中 对于ElasticSearch,有,但这是为了从Hadoop内部读写ElasticSearch,但似乎并不能解决将数据近乎实时地放入HDFS或避免数据有两个

我有一个大的索引,我需要对其执行近实时更新和全文搜索,但我也希望能够对该数据运行map reduce作业。不需要维护两个单独的数据副本就可以做到这一点吗?(例如,一份在Solr中,另一份在HDFS中)

它看起来像,但看起来不太适合map reduce,因为它只是以一种很难从Hadoop map reduce中读取的方式将索引存储在HDFS中

对于ElasticSearch,有,但这是为了从Hadoop内部读写ElasticSearch,但似乎并不能解决将数据近乎实时地放入HDFS或避免数据有两个副本的问题

有没有人遇到过类似的问题,或者找到了其他可能有助于解决问题的工具?或者为map reduce作业提供单独的数据副本是标准做法吗


谢谢

如果您正在谈论将来可以选择存储在hdfs(run map reduce)中,然后使用solr执行索引,那么我认为,您可以遵循以下步骤

对于实时流媒体(例如twitter),您需要将它们实时存储在db中。一种选择是把它们送到卡夫卡,利用暴风雪。从那里,您可以存储在hdfs和并行的solr中。他们有螺栓的概念,这些螺栓将执行相同的功能。一旦是hdfs,就可以使用map reduce。一旦进入Solr,您将执行搜索。如果希望两个数据同步,可以尝试一些事件处理,它侦听数据插入HDFS(或其堆栈)并在Solr中执行索引。请通过卡夫卡,风暴文件有基本的想法。替代品可以是水槽,也可以是火花。我不确定