Google cloud platform 优化apachebeam/cloud数据流启动

Google cloud platform 优化apachebeam/cloud数据流启动,google-cloud-platform,google-cloud-dataflow,apache-beam,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,我已经用ApacheBeam做了一些测试,使用auto scale workers和1 worker,每次启动时间大约为2分钟。是否有可能缩短启动时间?如果有,建议哪些最佳做法可以缩短启动时间?IMHO:对于云数据流这样的产品,两分钟是非常快的。请记住,谷歌正在为您推出一项功能强大的大数据服务,可自动缩放 将这段时间与其他云供应商进行比较。我看到一些集群(Hadoop)需要15分钟才能上线。在任何情况下,您都无法控制数据流的初始化过程,因此您无需改进。将其置于“流”模式如何?这能解决问题吗?什么

我已经用ApacheBeam做了一些测试,使用auto scale workers和1 worker,每次启动时间大约为2分钟。是否有可能缩短启动时间?如果有,建议哪些最佳做法可以缩短启动时间?

IMHO:对于云数据流这样的产品,两分钟是非常快的。请记住,谷歌正在为您推出一项功能强大的大数据服务,可自动缩放


将这段时间与其他云供应商进行比较。我看到一些集群(Hadoop)需要15分钟才能上线。在任何情况下,您都无法控制数据流的初始化过程,因此您无需改进。

将其置于“流”模式如何?这能解决问题吗?什么问题?如果您打算让Dataflow集群始终以流模式运行,那么这将如何提高您的启动时间?流表示数据流从无限的数据源(永不结束的数据)读取。批处理模式和流式模式要求数据流中有不同的代码设计。感谢您的回复。我的意思是,如果它处于“流”模式,它基本上会一直处于“开启”状态,对吗?在这种情况下,我们不必担心会“打开”DF跑步者,因为他们已经打开了。这是正确的理解吗?在流模式下,数据流已经在运行一个设计为永远运行的作业。如果您想要一个空闲等待作业的集群,请查看Dataproc。数据流不会启动,然后等待作业。您可以将数据流作为作业启动。云数据流设计为
serverless
,与云功能的
serverless
环境相同。数据流不会启动,然后闲置在那里。与其他无服务器产品一样,它在需要时启动,然后关闭。对于临时处理作业的长时间运行的集群,您应该选择不同的服务。CloudDataflow是CloudDataProc,Spark(Hadoop+Spark)作为托管服务运行。这就是为什么我对谷歌发布数据流的速度印象深刻的原因。Hadoop需要很长时间才能启动并准备好所有服务。