Hadoop Solr或ElasticSearch是否可以配置为以同样支持MapReduce的方式将HDFS用作其持久层？_Hadoop_Solr_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Hdfs

Hadoop Solr或ElasticSearch是否可以配置为以同样支持MapReduce的方式将HDFS用作其持久层？

hadoop solr

Hadoop Solr或ElasticSearch是否可以配置为以同样支持MapReduce的方式将HDFS用作其持久层？,hadoop,solr,elasticsearch,hdfs,Hadoop,Solr,elasticsearch,Hdfs,我有一个大的索引，我需要对其执行近实时更新和全文搜索，但我也希望能够对该数据运行map reduce作业。不需要维护两个单独的数据副本就可以做到这一点吗？（例如，一份在Solr中，另一份在HDFS中）它看起来像，但看起来不太适合map reduce，因为它只是以一种很难从Hadoop map reduce中读取的方式将索引存储在HDFS中对于ElasticSearch，有，但这是为了从Hadoop内部读写ElasticSearch，但似乎并不能解决将数据近乎实时地放入HDFS或避免数据有两个

我有一个大的索引，我需要对其执行近实时更新和全文搜索，但我也希望能够对该数据运行map reduce作业。不需要维护两个单独的数据副本就可以做到这一点吗？（例如，一份在Solr中，另一份在HDFS中）

它看起来像，但看起来不太适合map reduce，因为它只是以一种很难从Hadoop map reduce中读取的方式将索引存储在HDFS中

对于ElasticSearch，有，但这是为了从Hadoop内部读写ElasticSearch，但似乎并不能解决将数据近乎实时地放入HDFS或避免数据有两个副本的问题

有没有人遇到过类似的问题，或者找到了其他可能有助于解决问题的工具？或者为map reduce作业提供单独的数据副本是标准做法吗

谢谢

如果您正在谈论将来可以选择存储在hdfs（run map reduce）中，然后使用solr执行索引，那么我认为，您可以遵循以下步骤

对于实时流媒体（例如twitter），您需要将它们实时存储在db中。一种选择是把它们送到卡夫卡，利用暴风雪。从那里，您可以存储在hdfs和并行的solr中。他们有螺栓的概念，这些螺栓将执行相同的功能。一旦是hdfs，就可以使用map reduce。一旦进入Solr，您将执行搜索。如果希望两个数据同步，可以尝试一些事件处理，它侦听数据插入HDFS（或其堆栈）并在Solr中执行索引。请通过卡夫卡，风暴文件有基本的想法。替代品可以是水槽，也可以是火花。我不确定