在Hadoop上运行Lucene/Solr的最佳方式是什么?

在Hadoop上运行Lucene/Solr的最佳方式是什么?,lucene,solr,hadoop,mapreduce,elastic-map-reduce,Lucene,Solr,Hadoop,Mapreduce,Elastic Map Reduce,我们在AmazonWebServicesEC2实例上运行Solr,该实例具有1TB的EBS卷来存储索引,这样我们就可以轻松地启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过1TB,我并不想处理将多个EBS卷分条以保存索引的问题。此外,重新生成索引的速度非常慢。我想将索引生成(可能还有托管)转移到Hadoop,最好是Amazon的Elastic MapReduce,不过如果需要,我可以设置单独的Hadoop服务器。我们使用RightScale,因此我们可以使用他们的服务器模板库

我们在AmazonWebServicesEC2实例上运行Solr,该实例具有1TB的EBS卷来存储索引,这样我们就可以轻松地启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过1TB,我并不想处理将多个EBS卷分条以保存索引的问题。此外,重新生成索引的速度非常慢。我想将索引生成(可能还有托管)转移到Hadoop,最好是Amazon的Elastic MapReduce,不过如果需要,我可以设置单独的Hadoop服务器。我们使用RightScale,因此我们可以使用他们的服务器模板库


在Hadoop上开始使用Lucene/Solr的最佳位置是什么?

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch进行批量加载。Infochimps开源了一个名为Wonderdog的ElasticSearch批量索引器,您可以查看它的概念证明

http://www.elasticsearch.com


它是云友好的(请参阅cloud aws plugin for discovery),并且可以通过添加节点来保存索引来进行放大/缩小

你的索引是分片的吗?您可以对索引进行分片,并将分片分布到多个实例。

您看过Katta()吗?它提供了分片和分发Lucene索引的方法。我真的希望我的索引创建速度加快,而不仅仅是交付。看起来Katta会帮助交付,但不会帮助创建?