pyspark-使用FAILFAST选项在加载失败后捕获格式错误的JSON文件名_Pyspark_Pyspark Sql

pyspark-使用FAILFAST选项在加载失败后捕获格式错误的JSON文件名

pyspark

pyspark-使用FAILFAST选项在加载失败后捕获格式错误的JSON文件名,pyspark,pyspark-sql,Pyspark,Pyspark Sql,为了检测格式不正确/损坏/不完整的JSON文件，我使用了FAILFAST选项，以便进程失败。如何从100个文件中捕获损坏的文件名，因为我需要从路径中删除该文件，并从s3存储桶中复制文件的良好版本 df=spark\u session.read.json（table.load\u path，mode='FAILFAST'）.cache（）我能够获取文件名，但问题是我想用好的文件重新加载损坏的文件，但由于FAILFAST结束spark session，我无法在异常处理中再次使用loadload\u

为了检测格式不正确/损坏/不完整的JSON文件，我使用了FAILFAST选项，以便进程失败。如何从100个文件中捕获损坏的文件名，因为我需要从路径中删除该文件，并从s3存储桶中复制文件的良好版本

df=spark\u session.read.json（table.load\u path，mode='FAILFAST'）.cache（）

我能够获取文件名，但问题是我想用好的文件重新加载损坏的文件，但由于FAILFAST结束spark session，我无法在异常处理中再次使用load

load\u table（）df=spark\u session.read.json（file_name，mode='FAILFAST'）.cache（）除外：delete\u old\u file\u copy\u good\u file（file_name）df=session.read.json（file_name.cache（）df.registerTemplateable（表\u name）

我能够获取文件名，但问题是我想用好文件重新加载损坏的文件，但由于FAILFAST结束spark会话，我无法在异常处理中再次使用load。load_table（）df=spark_session.read.json（file_name，mode='FAILFAST'）.cache（）除外：delete_old_file_copy_good_file（file_name）df=self.spark_session.read.json（file_name）.cache（）df.RegisterEmptable（table_name）