Google cloud dataflow 谷歌云数据流中的apache beam是否跟踪临时位置中的中间文件?

Google cloud dataflow 谷歌云数据流中的apache beam是否跟踪临时位置中的中间文件?,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,在数据流中,为要并行化的数据指定一个临时位置,然后在最后进行聚合。我想知道它是否跟踪在运行中需要聚合哪些临时文件。如果为后续运行指定了同一个存储桶,并且其他具有不同名称的临时文件是从以前的运行中遗留下来的,那么它只是在存储桶中临时文件夹下惰性地聚合所有内容,还是仅聚合与当前运行关联的特定临时文件名?仅聚合与当前运行关联的临时文件名,因为数据流是,并且可能会在工人问题的情况下重试代码多次。数据流服务可能会创建代码的备份副本,并且可能会出现手动副作用问题(例如,如果代码依赖于或创建具有非唯一名称的临

在数据流中,为要并行化的数据指定一个临时位置,然后在最后进行聚合。我想知道它是否跟踪在运行中需要聚合哪些临时文件。如果为后续运行指定了同一个存储桶,并且其他具有不同名称的临时文件是从以前的运行中遗留下来的,那么它只是在存储桶中临时文件夹下惰性地聚合所有内容,还是仅聚合与当前运行关联的特定临时文件名?

仅聚合与当前运行关联的临时文件名,因为数据流是,并且可能会在工人问题的情况下重试代码多次。数据流服务可能会创建代码的备份副本,并且可能会出现手动副作用问题(例如,如果代码依赖于或创建具有非唯一名称的临时文件)

但是建议为每个作业设置一个单独的bucket,因为基于模板的作业可以使用相同的目录,这取决于创建模板时的时间戳 e、 g:


仅与当前运行相关联的数据流,因为数据流是,并且在工作程序问题的情况下可能会多次重试代码。数据流服务可能会创建代码的备份副本,并且可能会出现手动副作用问题(例如,如果代码依赖于或创建具有非唯一名称的临时文件)

但是建议为每个作业设置一个单独的bucket,因为基于模板的作业可以使用相同的目录,这取决于创建模板时的时间戳 e、 g:

.temp-beam-2020-01-12_14-13-30-12/