Solr 来自HDFS的Spark批量加载解决方案_Solr_Apache Spark_Hdfs

Solr 来自HDFS的Spark批量加载解决方案

solr apache-spark

Solr 来自HDFS的Spark批量加载解决方案,solr,apache-spark,hdfs,Solr,Apache Spark,Hdfs,过去有一种方法可以使用MR作业从HDFS批量加载Solr。23点41分，一段老道格切割视频谈到了这一点我还拍摄了下面他的幻灯片的屏幕截图：因此，您过去能够从HDF读取数据并写出多个Solr碎片…每个映射器一个。我怎么能用Spark做这样的事？我发现LucidWorks的Spark Solr项目有一个SolrRDD，但它似乎使用SolrJ对Solr进行写入。我想从Spark RDD将碎片写入HDF，类似于MR的工作。在Spark里我该怎么做

过去有一种方法可以使用MR作业从HDFS批量加载Solr。23点41分，一段老道格切割视频谈到了这一点

我还拍摄了下面他的幻灯片的屏幕截图：

因此，您过去能够从HDF读取数据并写出多个Solr碎片…每个映射器一个。我怎么能用Spark做这样的事？我发现LucidWorks的Spark Solr项目有一个SolrRDD，但它似乎使用SolrJ对Solr进行写入。我想从Spark RDD将碎片写入HDF，类似于MR的工作。在Spark里我该怎么做