Google cloud dataflow CoGbkResult有10000多个元素,需要重复(可能很慢)

Google cloud dataflow CoGbkResult有10000多个元素,需要重复(可能很慢),google-cloud-dataflow,Google Cloud Dataflow,我在一个作业中看到了这条信息,它确实比类似的作业(输入稍有不同)运行得慢 什么意思会有重复?它是只影响性能,还是意味着我的代码可能在相同的输入上运行两次(我的代码偶尔会有副作用) 谢谢! G这意味着联接的PCollection太大,无法保存在内存中,因此从中提取元素的效率将低于整个集合装入内存时的效率。我们重申对CoGroupByKey的具体化输入,但您的代码不会重新运行,因此这只会影响性能 值得注意的是,在工作程序失败的情况下,可能会多次运行带有副作用的代码。我在工作程序日志中也看到了这条消息

我在一个作业中看到了这条信息,它确实比类似的作业(输入稍有不同)运行得慢

什么意思会有重复?它是只影响性能,还是意味着我的代码可能在相同的输入上运行两次(我的代码偶尔会有副作用)

谢谢!
G

这意味着联接的PCollection太大,无法保存在内存中,因此从中提取元素的效率将低于整个集合装入内存时的效率。我们重申对CoGroupByKey的具体化输入,但您的代码不会重新运行,因此这只会影响性能


值得注意的是,在工作程序失败的情况下,可能会多次运行带有副作用的代码。

我在工作程序日志中也看到了这条消息。数据流作业id为2016-12-16_01_03_35-157373639013472716540。经过一个关键步骤,工作变得非常缓慢。有没有什么方法可以在没有收到这条消息的情况下将两个大型数据源连接到google dataflow中,当然还有更快的方法?就我而言,只有一个来源是大的。