如何在Scala中从Spark数据帧中分离出_损坏的_记录?

如何在Scala中从Spark数据帧中分离出_损坏的_记录?,scala,apache-spark,aws-glue,aws-glue-spark,Scala,Apache Spark,Aws Glue,Aws Glue Spark,在Spark with Scala中,我需要分离出具有\u损坏\u记录的传入数据 我有以下代码: 在这里,我将数据读入DF-这很好 val data_frame_datasource0 = glueContext.getCatalogSource(database = "my-stream-database", tableName = "my-stream-table", tmpDir = "", transformationConte

在Spark with Scala中,我需要分离出具有
\u损坏\u记录的传入数据

我有以下代码:

在这里,我将数据读入DF-这很好

val data_frame_datasource0 = glueContext.getCatalogSource(database = "my-stream-database", tableName = "my-stream-table", tmpDir = "", transformationContext = "datasource0", additionalOptions = JsonOptions("""{"startingPosition": "TRIM_HORIZON", "inferSchema": "true"}""")).getDataFrame()
在这里,我想创建一个DF,其中包含与良好数据分离的
\u corrupt\u record
,以便以后我可以将split\u valid\u corrupt\u DF(0)转储到一个错误的数据位置

val split_valid_corrupt_df = data_frame_datasource0.splitRows(Seq("_corrupt_record"), transformationContext = "split_valid_corrupt_df", CallSite("Not provided", ""), stageThreshold = 10, totalThreshold = 100)
但是,
\u损坏\u记录
没有分开

我在这件事上遗漏了什么?我是新手。我还需要一些其他的
序列
吗,还是需要一个非空过滤器来过滤
\u corrupt\u记录

谢谢