Google cloud dataflow 谷歌云数据流中的apache beam是否跟踪临时位置中的中间文件？_Google Cloud Dataflow_Apache Beam

Google cloud dataflow 谷歌云数据流中的apache beam是否跟踪临时位置中的中间文件？

google-cloud-dataflow

Google cloud dataflow 谷歌云数据流中的apache beam是否跟踪临时位置中的中间文件？,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,在数据流中，为要并行化的数据指定一个临时位置，然后在最后进行聚合。我想知道它是否跟踪在运行中需要聚合哪些临时文件。如果为后续运行指定了同一个存储桶，并且其他具有不同名称的临时文件是从以前的运行中遗留下来的，那么它只是在存储桶中临时文件夹下惰性地聚合所有内容，还是仅聚合与当前运行关联的特定临时文件名？仅聚合与当前运行关联的临时文件名，因为数据流是，并且可能会在工人问题的情况下重试代码多次。数据流服务可能会创建代码的备份副本，并且可能会出现手动副作用问题（例如，如果代码依赖于或创建具有非唯一名称的临

在数据流中，为要并行化的数据指定一个临时位置，然后在最后进行聚合。我想知道它是否跟踪在运行中需要聚合哪些临时文件。如果为后续运行指定了同一个存储桶，并且其他具有不同名称的临时文件是从以前的运行中遗留下来的，那么它只是在存储桶中临时文件夹下惰性地聚合所有内容，还是仅聚合与当前运行关联的特定临时文件名？

仅聚合与当前运行关联的临时文件名，因为数据流是，并且可能会在工人问题的情况下重试代码多次。数据流服务可能会创建代码的备份副本，并且可能会出现手动副作用问题（例如，如果代码依赖于或创建具有非唯一名称的临时文件）

但是建议为每个作业设置一个单独的bucket，因为基于模板的作业可以使用相同的目录，这取决于创建模板时的时间戳 e、 g:

仅与当前运行相关联的数据流，因为数据流是，并且在工作程序问题的情况下可能会多次重试代码。数据流服务可能会创建代码的备份副本，并且可能会出现手动副作用问题（例如，如果代码依赖于或创建具有非唯一名称的临时文件）

但是建议为每个作业设置一个单独的bucket，因为基于模板的作业可以使用相同的目录，这取决于创建模板时的时间戳 e、 g:

.temp-beam-2020-01-12_14-13-30-12/