Python 3.x 在spark应用程序中处理负面测试用例-Pyspark

Python 3.x 在spark应用程序中处理负面测试用例-Pyspark,python-3.x,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我有一个spark应用程序,它执行ETL工作,从Kafka主题(结构化流)读取到dataframe,dataframe将主题中的消息作为字符串读取。使用regex从字符串中提取列字段,然后对字段应用一些聚合 如果Kafka主题中的消息是以特定格式给出的,那么这种方法很有效,但如果某些字段丢失,则存储为null。我如何使程序显示准确的问题,而不是一个巨大的错误 我还尝试为脚本的其他单元包括输入验证,比如聚合函数检查所需的列是否存在,检查数据帧中的单元格是否为特定格式,等等 在这里处理输入验证的最佳

我有一个spark应用程序,它执行ETL工作,从Kafka主题(结构化流)读取到dataframe,dataframe将主题中的消息作为字符串读取。使用regex从字符串中提取列字段,然后对字段应用一些聚合

如果Kafka主题中的消息是以特定格式给出的,那么这种方法很有效,但如果某些字段丢失,则存储为null。我如何使程序显示准确的问题,而不是一个巨大的错误

我还尝试为脚本的其他单元包括输入验证,比如聚合函数检查所需的列是否存在,检查数据帧中的单元格是否为特定格式,等等

在这里处理输入验证的最佳方法是什么?我是否使用
尝试并排除
?还是应用聚合函数之前的断言