Apache spark Spark Scala RDD[（字符串，Int）]不可变错误_Apache Spark

Apache spark Spark Scala RDD[（字符串，Int）]不可变错误

apache-spark

Apache spark Spark Scala RDD[（字符串，Int）]不可变错误,apache-spark,Apache Spark,我想处理以下格式的csv文件 Tran-Date, Reference-Id, Payee, Address, Amount 2016/02/22,34343432, Wawa, Malvern, -10.51 2016/01/12,34343411, Exon, Malvern, -30.67 2016/03/02,34343999, Wawa, Malvern, -19.23 我想要的结果如下： wawa, -29.74 Exon, -30.67 我在Spark Shell中做了以下操作

我想处理以下格式的csv文件

Tran-Date, Reference-Id, Payee, Address, Amount
2016/02/22,34343432, Wawa, Malvern, -10.51
2016/01/12,34343411, Exon, Malvern, -30.67
2016/03/02,34343999, Wawa, Malvern, -19.23

我想要的结果如下：

wawa, -29.74
Exon, -30.67

我在Spark Shell中做了以下操作

val textFile = sc.textFile("/file/source")
val payeeAmountMap = textFile.map(lines => {val line = lines.split(","); 
(line(2), line(4).toInt)})

上面的直接命令生成RDD[（字符串，Int）]

问题是，我无法打印此RDD或对此RDD执行任何操作

请告知如何进一步实现所需输出

注：-我是新星火世界。任何建议都会对我有帮助

提前感谢。

如果您只是想要一些输出，您需要一个操作。比如说

payeeAmountMap.take(5)

就所需的输出而言，您需要按收款人分组，并在“金额”列上应用总和聚合函数

注意：Spark SQL和Spark csv库对您的帮助远不止使用逗号手动拆分自己，使用RDD函数可以发布您收到的错误。