Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何在Spark中返回空场_Scala_Apache Spark - Fatal编程技术网

Scala 如何在Spark中返回空场

Scala 如何在Spark中返回空场,scala,apache-spark,Scala,Apache Spark,我试图检查不完整的记录,并找出Spark中的不良记录 eg. sample test.txt file, it is in record format, columns separated by \t L1C1 L1C2 L1C3 L1C4 L2C1 L2C2 L2C3 L3C1 L3C2 L3C3 L3C4 scala> sc.textFile("test.txt").filter(_.split("

我试图检查不完整的记录,并找出Spark中的不良记录

eg. sample test.txt file, it is in record format, columns separated by \t

L1C1    L1C2    L1C3    L1C4
L2C1    L2C2    L2C3    
L3C1    L3C2    L3C3    L3C4

scala> sc.textFile("test.txt").filter(_.split("\t").length < 4).collect.foreach(println)
L2C1    L2C2    L2C3    
例如sample test.txt文件,它是记录格式,列之间用\t分隔
L1C1 L1C2 L1C3 L1C4
L2C1 L2C2 L2C3
L3C1 L3C2 L3C3 L3C4
scala>sc.textFile(“test.txt”).filter(u.split(“\t”).length<4.collect.foreach(println)
L2C1 L2C2 L2C3
第二行是打印,因为列数较少。
如何在不忽略第二行中的空列的情况下进行分析?

是scala中的拆分字符串删除了后面的空子字符串。 该行为类似于Java,以便检查所有子字符串,我们可以调用
“L2C1 L2C2 L2C3”.split(“\t”,-1)

sc.textFile(“test.txt”)将创建RDD[String]而不是数据帧(列)您可以添加您的预期输出吗?我正在尝试对文件进行基本检查,如果有任何不完整的记录(较少的制表符分隔字段),另一种情况是如果记录以\结尾,它将在下一行继续。