Dataframe 如何避免在pyspark出现任何故障时将相同的数据重新加载到hdfs中_Dataframe_Pyspark_Hive_Hdfs_Pyspark Dataframes

Dataframe 如何避免在pyspark出现任何故障时将相同的数据重新加载到hdfs中

dataframe pyspark hive

Dataframe 如何避免在pyspark出现任何故障时将相同的数据重新加载到hdfs中,dataframe,pyspark,hive,hdfs,pyspark-dataframes,Dataframe,Pyspark,Hive,Hdfs,Pyspark Dataframes,我有一个pyspark程序来执行业务映射，并将数据加载到两个基于月末日期分区的配置单元外部表中请求的场景：如果在加载第一个目标表之后和加载第二个表之前出现任何故障。在我的再加工过程中，我不应再次接触第一个工作台上的负载，而应继续进行第二个工作台负载。在hdfs位置或任何其他可用的选项中，是否有任何包装文件可以触摸 hdfs位置： /home/gudirame/user/data_base_db/table_name1/_SUCCESS /home/gudirame/user/data_bas

我有一个pyspark程序来执行业务映射，并将数据加载到两个基于月末日期分区的配置单元外部表中

请求的场景： 如果在加载第一个目标表之后和加载第二个表之前出现任何故障。在我的再加工过程中，我不应再次接触第一个工作台上的负载，而应继续进行第二个工作台负载。在hdfs位置或任何其他可用的选项中，是否有任何包装文件可以触摸

hdfs位置：

/home/gudirame/user/data_base_db/table_name1/_SUCCESS
/home/gudirame/user/data_base_db/table_name1/2020-09-30/part-001-dsfas.parquet
/home/gudirame/user/data_base_db/table_name1/2020-10-31/part-002-dsfas.parquet

/home/gudirame/user/data_base_db/table_name2/_SUCCESS
/home/gudirame/user/data_base_db/table_name2/2020-09-30/part-003-dsfas.parquet
/home/gudirame/user/data_base_db/table_name2/2020-10-31/part-004-dsfas.parquet

完成此场景的任何解决方案？？您可以等待程序生成成功文件，然后执行第二个表（如果生成）。任何解决方案完成此场景？？您可以等待程序生成成功文件，然后执行第二个表（如果生成）