Apache spark 我丢了拼花文件了吗?为什么不是';t部分-<;文件编号>;增量的?

Apache spark 我丢了拼花文件了吗?为什么不是';t部分-<;文件编号>;增量的?,apache-spark,hdfs,parquet,Apache Spark,Hdfs,Parquet,我有一个大的(数据)工作,将输出写到hdfs。拼花地板文件输出不是增量的。集群后来(我想)失去了一个执行器,任务失败了 这是我看到的输出: part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet part-00024-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet part-00051-762ce553-134d-4b3f-a2f8-4291baebf

我有一个大的(数据)工作,将输出写到hdfs。拼花地板文件输出不是增量的。集群后来(我想)失去了一个执行器,任务失败了

这是我看到的输出:

part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00024-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00051-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00057-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00064-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...
这是我所期望的数据:

part-00001-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00002-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00003-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00005-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...

为什么部分不是增量的?我丢失了文件吗?

您是否尝试读取已处理的文件并检查计数?是否尝试读取已处理的文件并检查计数?