Pyspark GCP-GKE与Dataproc上的火花

Pyspark GCP-GKE与Dataproc上的火花,pyspark,google-cloud-platform,google-cloud-dataproc,google-kubernetes-engine,Pyspark,Google Cloud Platform,Google Cloud Dataproc,Google Kubernetes Engine,我们的组织最近将其基础设施从aws转移到了谷歌云计算,我认为dataproc集群是运行现有spark工作的一个很好的解决方案。但当谈到价格比较时,我也意识到我可以启动一个google kubernetes引擎集群并在其中安装spark来运行spark应用程序 现在我的问题是,如何在gke上运行spark“那么使用dataproc比较呢?在自动校准、定价和基础设施方面,哪一个是最好的选择。我已经阅读了谷歌关于gke和dataproc的文档,但是还没有足够的信息来确定使用gke或dataproc的优

我们的组织最近将其基础设施从aws转移到了谷歌云计算,我认为dataproc集群是运行现有spark工作的一个很好的解决方案。但当谈到价格比较时,我也意识到我可以启动一个google kubernetes引擎集群并在其中安装spark来运行spark应用程序

现在我的问题是,如何在gke上运行spark“那么使用dataproc比较呢?在自动校准、定价和基础设施方面,哪一个是最好的选择。我已经阅读了谷歌关于gke和dataproc的文档,但是还没有足够的信息来确定使用gke或dataproc的优缺点。”

任何专家意见都会非常有用


提前感谢。

DataProc上的Spark经过验证,并在许多组织中使用,尽管它没有得到完全管理,但您可以通过GCP api自动创建和拆除群集、提交作业等,但它仍然是您必须管理的另一个堆栈

GKE上的Spark是一个新东西,Spark从2.4版开始添加功能以支持Kubernetes,甚至谷歌在几天前为预览版更新了Kubernetes


如果我必须在Prod环境中运行作业,我会选择DataProc,否则您可以自己用Docker进行试验,看看效果如何,但我认为它需要更多的时间才能稳定下来,从纯粹的成本角度来看,使用Docker会更便宜,因为您可以与其他服务共享资源。

添加我的t上面的答案是0美分

  • 我更倾向于DataProc,因为它的管理和支持是由 盒子。没有烟幕。更重要的是,成本优化。你可能不会 需要集群的所有时间,你可以有短暂的集群与 dataproc
  • 使用GKE,我需要显式地丢弃集群,并在 必要。需要额外注意
  • 我没有遇到GCP在数据方面提供的任何直接服务 在这种情况下,我可能会将ApacheAlas与 Spark Atlas连接器在Spark安装上由我自己管理。在 在这种情况下,在GKE上运行Spark,所有控制权都在 我自己会做出一个令人信服的选择