Apache spark apachespark合并来自两个文件的数据

Apache spark apachespark合并来自两个文件的数据,apache-spark,Apache Spark,我只想合并两个文件中的特定数据,并输出一个文件,其中包含这些数据的列,以及它们在ssn的两个数据文件中出现的次数。我应该做类似的事情吗 val data = spark.read.json("file") val ssn = data.filter(line => line.contains("ssn")).count() val tickets = data.filter(line => line.contains("tickets")).count() 如果我在输出文件中看到相

我只想合并两个文件中的特定数据,并输出一个文件,其中包含这些数据的列,以及它们在ssn的两个数据文件中出现的次数。我应该做类似的事情吗

val data = spark.read.json("file")
val ssn = data.filter(line => line.contains("ssn")).count()
val tickets = data.filter(line => line.contains("tickets")).count()
如果我在输出文件中看到相同的ssn,是否有一种方法可以将基于ssn的数据连接起来,然后继续增加票证数量


另外,ssn在两个文件中都是json键值对,但在每一行上,它们都在自己的json消息中,当我试图读取文件时,我得到了一个“\u corrupt\u record”,我应该将其作为纯文本读取吗

您是否有最小的示例输入和期望输出?现在还不清楚你到底想加入什么。您是否检查了
join
操作符是否是您所需要的?很抱歉延迟响应:23:59:59,{“ab”:“cd”,“ef”:“gh”},{“number”:“1009”,“value”:1800,“ssn”:“123-45-0000”,“ticket”:1}这是单行的示例,我的输出将是一个SSN票证值为123-45-0000 1 1800的文件,基本上,如果SSN再次出现在另一行或文件上,它将添加当前的票证列,并添加它再次读取的内容,并更新输出文件,与值列相同。其中数据将根据唯一SSN进行组合。我试着将它作为json读入,但这使我的记录被破坏。然后我试着将它作为文本文件读入,并尝试使用正则表达式,但我得到了NotSerializableException。因为我只想分析行的某些部分,所以有点难懂。我确实看过join,但我不确定如何从常规文件创建两个表现在更好了,但仍然不是100%清楚。你能用这个说明来编辑你的帖子(不是评论)吗?还能用同样的ssn添加第二个元组示例来向我们展示你想要如何加入它们吗?