pyspark-使用FAILFAST选项在加载失败后捕获格式错误的JSON文件名

pyspark-使用FAILFAST选项在加载失败后捕获格式错误的JSON文件名,pyspark,pyspark-sql,Pyspark,Pyspark Sql,为了检测格式不正确/损坏/不完整的JSON文件,我使用了FAILFAST选项,以便进程失败。如何从100个文件中捕获损坏的文件名,因为我需要从路径中删除该文件,并从s3存储桶中复制文件的良好版本 df=spark\u session.read.json(table.load\u path,mode='FAILFAST').cache()我能够获取文件名,但问题是我想用好的文件重新加载损坏的文件,但由于FAILFAST结束spark session,我无法在异常处理中再次使用loadload\u

为了检测格式不正确/损坏/不完整的JSON文件,我使用了FAILFAST选项,以便进程失败。如何从100个文件中捕获损坏的文件名,因为我需要从路径中删除该文件,并从s3存储桶中复制文件的良好版本


df=spark\u session.read.json(table.load\u path,mode='FAILFAST').cache()

我能够获取文件名,但问题是我想用好的文件重新加载损坏的文件,但由于FAILFAST结束spark session,我无法在异常处理中再次使用load
load\u table()df=spark\u session.read.json(file_name,mode='FAILFAST').cache()除外:delete\u old\u file\u copy\u good\u file(file_name)df=session.read.json(file_name.cache()df.registerTemplateable(表\u name)
我能够获取文件名,但问题是我想用好文件重新加载损坏的文件,但由于FAILFAST结束spark会话,我无法在异常处理中再次使用load。load_table()df=spark_session.read.json(file_name,mode='FAILFAST').cache()除外:delete_old_file_copy_good_file(file_name)df=self.spark_session.read.json(file_name).cache()df.RegisterEmptable(table_name)