Apache spark Spark Scala RDD[(字符串,Int)]不可变错误

Apache spark Spark Scala RDD[(字符串,Int)]不可变错误,apache-spark,Apache Spark,我想处理以下格式的csv文件 Tran-Date, Reference-Id, Payee, Address, Amount 2016/02/22,34343432, Wawa, Malvern, -10.51 2016/01/12,34343411, Exon, Malvern, -30.67 2016/03/02,34343999, Wawa, Malvern, -19.23 我想要的结果如下: wawa, -29.74 Exon, -30.67 我在Spark Shell中做了以下操作

我想处理以下格式的csv文件

Tran-Date, Reference-Id, Payee, Address, Amount
2016/02/22,34343432, Wawa, Malvern, -10.51
2016/01/12,34343411, Exon, Malvern, -30.67
2016/03/02,34343999, Wawa, Malvern, -19.23
我想要的结果如下:

wawa, -29.74
Exon, -30.67
我在Spark Shell中做了以下操作

val textFile = sc.textFile("/file/source")
val payeeAmountMap = textFile.map(lines => {val line = lines.split(","); 
(line(2), line(4).toInt)})
上面的直接命令生成RDD[(字符串,Int)]

问题是,我无法打印此RDD或对此RDD执行任何操作

请告知如何进一步实现所需输出

注:-我是新星火世界。任何建议都会对我有帮助


提前感谢。

如果您只是想要一些输出,您需要一个操作。比如说

payeeAmountMap.take(5)
就所需的输出而言,您需要按收款人分组,并在“金额”列上应用总和聚合函数


注意:Spark SQL和Spark csv库对您的帮助远不止使用逗号手动拆分自己,使用RDD函数可以发布您收到的错误。