Scala 如何在Spark中返回空场_Scala_Apache Spark

Scala 如何在Spark中返回空场

scala apache-spark

Scala 如何在Spark中返回空场,scala,apache-spark,Scala,Apache Spark,我试图检查不完整的记录，并找出Spark中的不良记录 eg. sample test.txt file, it is in record format, columns separated by \t L1C1 L1C2 L1C3 L1C4 L2C1 L2C2 L2C3 L3C1 L3C2 L3C3 L3C4 scala> sc.textFile("test.txt").filter(_.split("

我试图检查不完整的记录，并找出Spark中的不良记录

eg. sample test.txt file, it is in record format, columns separated by \t

L1C1    L1C2    L1C3    L1C4
L2C1    L2C2    L2C3    
L3C1    L3C2    L3C3    L3C4

scala> sc.textFile("test.txt").filter(_.split("\t").length < 4).collect.foreach(println)
L2C1    L2C2    L2C3

例如sample test.txt文件，它是记录格式，列之间用\t分隔
L1C1 L1C2 L1C3 L1C4
L2C1 L2C2 L2C3
L3C1 L3C2 L3C3 L3C4
scala>sc.textFile（“test.txt”）.filter（u.split（“\t”）.length<4.collect.foreach（println）
L2C1 L2C2 L2C3

第二行是打印，因为列数较少。

如何在不忽略第二行中的空列的情况下进行分析？

是scala中的拆分字符串删除了后面的空子字符串。该行为类似于Java，以便检查所有子字符串，我们可以调用

“L2C1 L2C2 L2C3”.split（“\t”，-1）

sc.textFile（“test.txt”）将创建RDD[String]而不是数据帧（列）您可以添加您的预期输出吗？我正在尝试对文件进行基本检查，如果有任何不完整的记录（较少的制表符分隔字段），另一种情况是如果记录以\结尾，它将在下一行继续。