Google cloud dataflow 我们是否为google云数据流作业的暂存位置付费?

Google cloud dataflow 我们是否为google云数据流作业的暂存位置付费?,google-cloud-dataflow,Google Cloud Dataflow,Google Cloud Dataflow需要临时位置来存储数据流作业的临时文件 到目前为止,我们一直在执行不需要太多第三方作业的作业。现在,我们希望执行一个具有许多第三方依赖关系的作业。因此,在运行作业时将上载的文件会增加 我们是否也为这个中转地点付费? 对于每次作业执行,Dataflow是否在暂存位置有多个jar副本?是的,您会根据正常情况为GCS暂存位置中的文件付费 在上传文件之前,数据流将在暂存位置检查文件的副本。数据流使用文件内容的散列来验证暂存位置中的文件内容是否与将上载的内容匹配。

Google Cloud Dataflow需要临时位置来存储数据流作业的临时文件

到目前为止,我们一直在执行不需要太多第三方作业的作业。现在,我们希望执行一个具有许多第三方依赖关系的作业。因此,在运行作业时将上载的文件会增加

我们是否也为这个中转地点付费?
对于每次作业执行,Dataflow是否在暂存位置有多个jar副本?

是的,您会根据正常情况为GCS暂存位置中的文件付费


在上传文件之前,数据流将在暂存位置检查文件的副本。数据流使用文件内容的散列来验证暂存位置中的文件内容是否与将上载的内容匹配。如果找到匹配的文件,那么数据流将使用该文件。因此,如果多个作业使用相同的暂存位置和相同的JAR,它们将重用GCS中的现有文件,而不会创建新版本。

谢谢您的回答。一项澄清是,如果由于作业中的最新更改(即从作业的类路径中删除)而未使用jar,那么该jar将由数据流删除还是必须手动删除?AFAIK dataflow不会删除临时目录中的额外jar文件。例如,如果您运行两个作业,它们共享大部分类路径,其中一个需要特定的jar,而另一个不需要,那么在运行第二个作业时,Dataflow不会删除第一个作业的额外jar。请注意,GCS当前的定价为$0.026/GB/month()-因此大多数JAR都不够大,其存储成本不会太高。如何指定相同的哈希值,以便每次都重用暂存文件?