Apache spark apachespark合并来自两个文件的数据_Apache Spark

Apache spark apachespark合并来自两个文件的数据

apache-spark

Apache spark apachespark合并来自两个文件的数据,apache-spark,Apache Spark,我只想合并两个文件中的特定数据，并输出一个文件，其中包含这些数据的列，以及它们在ssn的两个数据文件中出现的次数。我应该做类似的事情吗 val data = spark.read.json("file") val ssn = data.filter(line => line.contains("ssn")).count() val tickets = data.filter(line => line.contains("tickets")).count() 如果我在输出文件中看到相

我只想合并两个文件中的特定数据，并输出一个文件，其中包含这些数据的列，以及它们在ssn的两个数据文件中出现的次数。我应该做类似的事情吗

val data = spark.read.json("file")
val ssn = data.filter(line => line.contains("ssn")).count()
val tickets = data.filter(line => line.contains("tickets")).count()

如果我在输出文件中看到相同的ssn，是否有一种方法可以将基于ssn的数据连接起来，然后继续增加票证数量

另外，ssn在两个文件中都是json键值对，但在每一行上，它们都在自己的json消息中，当我试图读取文件时，我得到了一个“\u corrupt\u record”，我应该将其作为纯文本读取吗

您是否有最小的示例输入和期望输出？现在还不清楚你到底想加入什么。您是否检查了

join

操作符是否是您所需要的？很抱歉延迟响应：23:59:59，{“ab”：“cd”，“ef”：“gh”}，{“number”：“1009”，“value”：1800，“ssn”：“123-45-0000”，“ticket”：1}这是单行的示例，我的输出将是一个SSN票证值为123-45-0000 1 1800的文件，基本上，如果SSN再次出现在另一行或文件上，它将添加当前的票证列，并添加它再次读取的内容，并更新输出文件，与值列相同。其中数据将根据唯一SSN进行组合。我试着将它作为json读入，但这使我的记录被破坏。然后我试着将它作为文本文件读入，并尝试使用正则表达式，但我得到了NotSerializableException。因为我只想分析行的某些部分，所以有点难懂。我确实看过join，但我不确定如何从常规文件创建两个表现在更好了，但仍然不是100%清楚。你能用这个说明来编辑你的帖子（不是评论）吗？还能用同样的ssn添加第二个元组示例来向我们展示你想要如何加入它们吗？