如何在spark scala中将Iterable[String]保存到hdfs
如何在spark scala中将可编辑的[String]输出保存到hdfs。 Iterable[字符串]如何在spark scala中将Iterable[String]保存到hdfs,scala,hadoop,apache-spark,mapreduce,rdd,Scala,Hadoop,Apache Spark,Mapreduce,Rdd,如何在spark scala中将可编辑的[String]输出保存到hdfs。 Iterable[字符串] 注意:ouput不是RDD(我不能使用output.saveAsTextFile(“hdfs路径”)一种方法是只编写一个简单的hdfs文件(与在vanilla Scala或Java中的方法相同)。这与Spark无关 另一种方法是将输出转换为RDD并保存 val ordersRDD = sc.textFile("/user/cloudera/sqoop_import/orders"); val
注意:ouput不是RDD(我不能使用output.saveAsTextFile(“hdfs路径”)一种方法是只编写一个简单的hdfs文件(与在vanilla Scala或Java中的方法相同)。这与Spark无关 另一种方法是将
输出
转换为RDD并保存
val ordersRDD = sc.textFile("/user/cloudera/sqoop_import/orders");
val ordersRDDStatus = ordersRDD.map( rec => (rec.split(",")(3), 1));
val countOrdersStatus = ordersRDDStatus.countByKey();
val output = countOrdersStatus.map(input => input._1 + "\t" + input._2);
val output = countOrdersStatus.map(input => input._1 + "\t" + input._2)
sc.makeRDD(output.toList).saveAsTextFile("hdfs-path")