Google cloud dataflow --apache beam 0.6中缺少workerCacheMB设置?
在Google Cloud Dataflow 1.x中,我大概可以访问这个关键的管道选项,称为:Google cloud dataflow --apache beam 0.6中缺少workerCacheMB设置?,google-cloud-dataflow,Google Cloud Dataflow,在Google Cloud Dataflow 1.x中,我大概可以访问这个关键的管道选项,称为: 工作车 我试图在我的beam 0.6管道中设置,但无法这样做(它说不存在这样的选项)。然后我浏览了选项的源代码,看看是否有任何选项有类似的名称——但我仍然找不到它 我需要设置它,因为我认为我的worfklow速度惊人的慢是由于一个3GB的侧输入,但这似乎需要20分钟以上才能读取。(我有一个View.asList(),然后我尝试在列表上做一个for循环——它需要20多分钟,而且仍然在运行;即使是在
工作车
我试图在我的beam 0.6管道中设置,但无法这样做(它说不存在这样的选项)。然后我浏览了选项的源代码,看看是否有任何选项有类似的名称——但我仍然找不到它
我需要设置它,因为我认为我的worfklow速度惊人的慢是由于一个3GB的侧输入,但这似乎需要20分钟以上才能读取。(我有一个View.asList(),然后我尝试在列表上做一个for循环——它需要20多分钟,而且仍然在运行;即使是在3GB,这也太慢了。)因此,我希望设置workerCacheMb会有所帮助。(我唯一的另一个理论是从serializablecoder切换到AvroCoder…)您使用的选项类别正确吗 以下代码在Beam中适用于我:
DataflowWorkerHarnessOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create()
.cloneAs(DataflowWorkerHarnessOptions.class);
options.setWorkerCacheMb(3000);