在Hadoop上运行Lucene/Solr的最佳方式是什么？_Lucene_Solr_Hadoop_Mapreduce_Elastic Map Reduce

在Hadoop上运行Lucene/Solr的最佳方式是什么？

lucene solr hadoop mapreduce

在Hadoop上运行Lucene/Solr的最佳方式是什么？,lucene,solr,hadoop,mapreduce,elastic-map-reduce,Lucene,Solr,Hadoop,Mapreduce,Elastic Map Reduce,我们在AmazonWebServicesEC2实例上运行Solr，该实例具有1TB的EBS卷来存储索引，这样我们就可以轻松地启动具有相同（只读）索引的其他服务器。但是，我们的索引很快就会超过1TB，我并不想处理将多个EBS卷分条以保存索引的问题。此外，重新生成索引的速度非常慢。我想将索引生成（可能还有托管）转移到Hadoop，最好是Amazon的Elastic MapReduce，不过如果需要，我可以设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的服务器模板库

我们在AmazonWebServicesEC2实例上运行Solr，该实例具有1TB的EBS卷来存储索引，这样我们就可以轻松地启动具有相同（只读）索引的其他服务器。但是，我们的索引很快就会超过1TB，我并不想处理将多个EBS卷分条以保存索引的问题。此外，重新生成索引的速度非常慢。我想将索引生成（可能还有托管）转移到Hadoop，最好是Amazon的Elastic MapReduce，不过如果需要，我可以设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的服务器模板库

在Hadoop上开始使用Lucene/Solr的最佳位置是什么？

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch进行批量加载。Infochimps开源了一个名为Wonderdog的ElasticSearch批量索引器，您可以查看它的概念证明

http://www.elasticsearch.com

它是云友好的（请参阅cloud aws plugin for discovery），并且可以通过添加节点来保存索引来进行放大/缩小

你的索引是分片的吗？您可以对索引进行分片，并将分片分布到多个实例。

您看过Katta（）吗？它提供了分片和分发Lucene索引的方法。我真的希望我的索引创建速度加快，而不仅仅是交付。看起来Katta会帮助交付，但不会帮助创建？