Google cloud platform 优化apachebeam/cloud数据流启动_Google Cloud Platform_Google Cloud Dataflow_Apache Beam

Google cloud platform 优化apachebeam/cloud数据流启动

google-cloud-platform google-cloud-dataflow

Google cloud platform 优化apachebeam/cloud数据流启动,google-cloud-platform,google-cloud-dataflow,apache-beam,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,我已经用ApacheBeam做了一些测试，使用auto scale workers和1 worker，每次启动时间大约为2分钟。是否有可能缩短启动时间？如果有，建议哪些最佳做法可以缩短启动时间？IMHO：对于云数据流这样的产品，两分钟是非常快的。请记住，谷歌正在为您推出一项功能强大的大数据服务，可自动缩放将这段时间与其他云供应商进行比较。我看到一些集群（Hadoop）需要15分钟才能上线。在任何情况下，您都无法控制数据流的初始化过程，因此您无需改进。将其置于“流”模式如何？这能解决问题吗？什么

我已经用ApacheBeam做了一些测试，使用auto scale workers和1 worker，每次启动时间大约为2分钟。是否有可能缩短启动时间？如果有，建议哪些最佳做法可以缩短启动时间？

IMHO：对于云数据流这样的产品，两分钟是非常快的。请记住，谷歌正在为您推出一项功能强大的大数据服务，可自动缩放

将这段时间与其他云供应商进行比较。我看到一些集群（Hadoop）需要15分钟才能上线。在任何情况下，您都无法控制数据流的初始化过程，因此您无需改进。

将其置于“流”模式如何？这能解决问题吗？什么问题？如果您打算让Dataflow集群始终以流模式运行，那么这将如何提高您的启动时间？流表示数据流从无限的数据源（永不结束的数据）读取。批处理模式和流式模式要求数据流中有不同的代码设计。感谢您的回复。我的意思是，如果它处于“流”模式，它基本上会一直处于“开启”状态，对吗？在这种情况下，我们不必担心会“打开”DF跑步者，因为他们已经打开了。这是正确的理解吗？在流模式下，数据流已经在运行一个设计为永远运行的作业。如果您想要一个空闲等待作业的集群，请查看Dataproc。数据流不会启动，然后等待作业。您可以将数据流作为作业启动。云数据流设计为

serverless

，与云功能的

serverless

环境相同。数据流不会启动，然后闲置在那里。与其他无服务器产品一样，它在需要时启动，然后关闭。对于临时处理作业的长时间运行的集群，您应该选择不同的服务。CloudDataflow是CloudDataProc，Spark（Hadoop+Spark）作为托管服务运行。这就是为什么我对谷歌发布数据流的速度印象深刻的原因。Hadoop需要很长时间才能启动并准备好所有服务。