如何在Scala中从Spark数据帧中分离出_损坏的_记录？_Scala_Apache Spark_Aws Glue_Aws Glue Spark

如何在Scala中从Spark数据帧中分离出_损坏的_记录？

scala apache-spark

如何在Scala中从Spark数据帧中分离出_损坏的_记录？,scala,apache-spark,aws-glue,aws-glue-spark,Scala,Apache Spark,Aws Glue,Aws Glue Spark,在Spark with Scala中，我需要分离出具有\u损坏\u记录的传入数据我有以下代码：在这里，我将数据读入DF-这很好 val data_frame_datasource0 = glueContext.getCatalogSource(database = "my-stream-database", tableName = "my-stream-table", tmpDir = "", transformationConte

在Spark with Scala中，我需要分离出具有

\u损坏\u记录的传入数据
我有以下代码：
在这里，我将数据读入DF-这很好
val data_frame_datasource0 = glueContext.getCatalogSource(database = "my-stream-database", tableName = "my-stream-table", tmpDir = "", transformationContext = "datasource0", additionalOptions = JsonOptions("""{"startingPosition": "TRIM_HORIZON", "inferSchema": "true"}""")).getDataFrame()

在这里，我想创建一个DF，其中包含与良好数据分离的\u corrupt\u record
，以便以后我可以将split\u valid\u corrupt\u DF（0）转储到一个错误的数据位置
val split_valid_corrupt_df = data_frame_datasource0.splitRows(Seq("_corrupt_record"), transformationContext = "split_valid_corrupt_df", CallSite("Not provided", ""), stageThreshold = 10, totalThreshold = 100)

但是，\u损坏\u记录
没有分开
我在这件事上遗漏了什么？我是新手。我还需要一些其他的序列
吗，还是需要一个非空过滤器来过滤\u corrupt\u记录

谢谢