Apache spark 使用Java在Spark中进行映射

Apache spark 使用Java在Spark中进行映射,apache-spark,hadoop,mapreduce,Apache Spark,Hadoop,Mapreduce,我有一个文件名myFile,格式如下: 1,A,2,B 1,A,3,C 2,B,4,D 我想将每行的第二个索引值映射到该行本身: A -> 1,A,2,B A -> 1,A,3,C B -> 2,B,4,D 如何使用Spark Java实现这一点?看起来您正在阅读CSV。Spark本机支持自Spark 2.x以来的版本 不要使用SparkContext使用SparkSession 只是为了打印一个数据帧,你需要这样的东西 spark.csv("C:\\myFile").sh

我有一个文件名myFile,格式如下:

1,A,2,B
1,A,3,C
2,B,4,D
我想将每行的第二个索引值映射到该行本身:

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用Spark Java实现这一点?

看起来您正在阅读CSV。Spark本机支持自Spark 2.x以来的版本

不要使用SparkContext使用SparkSession

只是为了打印一个数据帧,你需要这样的东西

spark.csv("C:\\myFile").show()

我就是这样做到的

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));
javapairrdpairs=myFile.mapToPair(s->new Tuple2(s.split(“,”[1],s));

阅读Spark基础知识听起来是个不错的开始: