Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
需要关于使用Map/Reduce创建solr索引的建议吗_Solr_Amazon S3_Mapreduce_Elastic Map Reduce_Emr - Fatal编程技术网

需要关于使用Map/Reduce创建solr索引的建议吗

需要关于使用Map/Reduce创建solr索引的建议吗,solr,amazon-s3,mapreduce,elastic-map-reduce,emr,Solr,Amazon S3,Mapreduce,Elastic Map Reduce,Emr,我对映射/减少世界非常陌生,并且尝试评估最佳选项,以确定是否可以利用它在Solr中创建索引。目前,我正在使用常规爬网来获取数据并直接在Solr中对其进行索引。这是没有任何问题的工作 但接下来,我们需要访问驻留在AmazonS3中的大量数据。目前S3中存储了大约500万个数据,需要对其进行索引。我正在考虑使用AmazonElasticMap/Reduce(EMR)直接访问S3中的内容,然后在Solr中创建索引。数据结构很简单,url(唯一)是S3键,值是XML文件。url将用作Solr中的文档id

我对映射/减少世界非常陌生,并且尝试评估最佳选项,以确定是否可以利用它在Solr中创建索引。目前,我正在使用常规爬网来获取数据并直接在Solr中对其进行索引。这是没有任何问题的工作

但接下来,我们需要访问驻留在AmazonS3中的大量数据。目前S3中存储了大约500万个数据,需要对其进行索引。我正在考虑使用AmazonElasticMap/Reduce(EMR)直接访问S3中的内容,然后在Solr中创建索引。数据结构很简单,url(唯一)是S3键,值是XML文件。url将用作Solr中的文档id,而XML数据的相关部分将作为字段存储在Solr索引中

我的问题是EMR是否是正确的方法?任务是访问S3中的数据,从XML中提取某些元素,进行一些处理,然后调用SolrAPI生成索引。在索引数据之前,处理部分需要很少的类,可能是一系列命令模式。这是可以实现的吗?我需要一个减速机还是可以使用映射器来完成这个过程?如果需要减速机,其范围是什么?目前,我有一个单独的索引来存储数据

任何关于这方面的建议都将不胜感激


谢谢

您可以尝试使用MapReduceIndexer工具。 您可以从ApacheSole下载它。 它是contrib模块的一部分