Apache spark 使用Java在Spark中进行映射_Apache Spark_Hadoop_Mapreduce

Apache spark 使用Java在Spark中进行映射

apache-spark hadoop mapreduce

Apache spark 使用Java在Spark中进行映射,apache-spark,hadoop,mapreduce,Apache Spark,Hadoop,Mapreduce,我有一个文件名myFile，格式如下： 1,A,2,B 1,A,3,C 2,B,4,D 我想将每行的第二个索引值映射到该行本身： A -> 1,A,2,B A -> 1,A,3,C B -> 2,B,4,D 如何使用Spark Java实现这一点？看起来您正在阅读CSV。Spark本机支持自Spark 2.x以来的版本不要使用SparkContext使用SparkSession 只是为了打印一个数据帧，你需要这样的东西 spark.csv("C:\\myFile").sh

我有一个文件名myFile，格式如下：

1,A,2,B
1,A,3,C
2,B,4,D

我想将每行的第二个索引值映射到该行本身：

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用Spark Java实现这一点？

看起来您正在阅读CSV。Spark本机支持自Spark 2.x以来的版本

不要使用SparkContext使用SparkSession

只是为了打印一个数据帧，你需要这样的东西

spark.csv("C:\\myFile").show()

我就是这样做到的

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));

javapairrdpairs=myFile.mapToPair（s->new Tuple2（s.split（“，”[1]，s））；

阅读Spark基础知识听起来是个不错的开始：