Solr 来自HDFS的Spark批量加载解决方案
过去有一种方法可以使用MR作业从HDFS批量加载Solr。23点41分,一段老道格切割视频谈到了这一点 我还拍摄了下面他的幻灯片的屏幕截图: 因此,您过去能够从HDF读取数据并写出多个Solr碎片…每个映射器一个。我怎么能用Spark做这样的事?我发现LucidWorks的Spark Solr项目有一个SolrRDD,但它似乎使用SolrJ对Solr进行写入。我想从Spark RDD将碎片写入HDF,类似于MR的工作。在Spark里我该怎么做Solr 来自HDFS的Spark批量加载解决方案,solr,apache-spark,hdfs,Solr,Apache Spark,Hdfs,过去有一种方法可以使用MR作业从HDFS批量加载Solr。23点41分,一段老道格切割视频谈到了这一点 我还拍摄了下面他的幻灯片的屏幕截图: 因此,您过去能够从HDF读取数据并写出多个Solr碎片…每个映射器一个。我怎么能用Spark做这样的事?我发现LucidWorks的Spark Solr项目有一个SolrRDD,但它似乎使用SolrJ对Solr进行写入。我想从Spark RDD将碎片写入HDF,类似于MR的工作。在Spark里我该怎么做