Dataframe 如何避免在pyspark出现任何故障时将相同的数据重新加载到hdfs中

Dataframe 如何避免在pyspark出现任何故障时将相同的数据重新加载到hdfs中,dataframe,pyspark,hive,hdfs,pyspark-dataframes,Dataframe,Pyspark,Hive,Hdfs,Pyspark Dataframes,我有一个pyspark程序来执行业务映射,并将数据加载到两个基于月末日期分区的配置单元外部表中 请求的场景: 如果在加载第一个目标表之后和加载第二个表之前出现任何故障。在我的再加工过程中,我不应再次接触第一个工作台上的负载,而应继续进行第二个工作台负载。在hdfs位置或任何其他可用的选项中,是否有任何包装文件可以触摸 hdfs位置: /home/gudirame/user/data_base_db/table_name1/_SUCCESS /home/gudirame/user/data_bas

我有一个pyspark程序来执行业务映射,并将数据加载到两个基于月末日期分区的配置单元外部表中

请求的场景: 如果在加载第一个目标表之后和加载第二个表之前出现任何故障。在我的再加工过程中,我不应再次接触第一个工作台上的负载,而应继续进行第二个工作台负载。在hdfs位置或任何其他可用的选项中,是否有任何包装文件可以触摸

hdfs位置:

/home/gudirame/user/data_base_db/table_name1/_SUCCESS
/home/gudirame/user/data_base_db/table_name1/2020-09-30/part-001-dsfas.parquet
/home/gudirame/user/data_base_db/table_name1/2020-10-31/part-002-dsfas.parquet

/home/gudirame/user/data_base_db/table_name2/_SUCCESS
/home/gudirame/user/data_base_db/table_name2/2020-09-30/part-003-dsfas.parquet
/home/gudirame/user/data_base_db/table_name2/2020-10-31/part-004-dsfas.parquet

完成此场景的任何解决方案??您可以等待程序生成成功文件,然后执行第二个表(如果生成)。任何解决方案完成此场景??您可以等待程序生成成功文件,然后执行第二个表(如果生成)