Pyspark GCP-GKE与Dataproc上的火花_Pyspark_Google Cloud Platform_Google Cloud Dataproc_Google Kubernetes Engine

Pyspark GCP-GKE与Dataproc上的火花

pyspark google-cloud-platform

Pyspark GCP-GKE与Dataproc上的火花,pyspark,google-cloud-platform,google-cloud-dataproc,google-kubernetes-engine,Pyspark,Google Cloud Platform,Google Cloud Dataproc,Google Kubernetes Engine,我们的组织最近将其基础设施从aws转移到了谷歌云计算，我认为dataproc集群是运行现有spark工作的一个很好的解决方案。但当谈到价格比较时，我也意识到我可以启动一个google kubernetes引擎集群并在其中安装spark来运行spark应用程序现在我的问题是，如何在gke上运行spark“那么使用dataproc比较呢？在自动校准、定价和基础设施方面，哪一个是最好的选择。我已经阅读了谷歌关于gke和dataproc的文档，但是还没有足够的信息来确定使用gke或dataproc的优

我们的组织最近将其基础设施从aws转移到了谷歌云计算，我认为dataproc集群是运行现有spark工作的一个很好的解决方案。但当谈到价格比较时，我也意识到我可以启动一个google kubernetes引擎集群并在其中安装spark来运行spark应用程序

现在我的问题是，如何在gke上运行spark“那么使用dataproc比较呢？在自动校准、定价和基础设施方面，哪一个是最好的选择。我已经阅读了谷歌关于gke和dataproc的文档，但是还没有足够的信息来确定使用gke或dataproc的优缺点。”

任何专家意见都会非常有用

提前感谢。

DataProc上的Spark经过验证，并在许多组织中使用，尽管它没有得到完全管理，但您可以通过GCP api自动创建和拆除群集、提交作业等，但它仍然是您必须管理的另一个堆栈

GKE上的Spark是一个新东西，Spark从2.4版开始添加功能以支持Kubernetes，甚至谷歌在几天前为预览版更新了Kubernetes

如果我必须在Prod环境中运行作业，我会选择DataProc，否则您可以自己用Docker进行试验，看看效果如何，但我认为它需要更多的时间才能稳定下来，从纯粹的成本角度来看，使用Docker会更便宜，因为您可以与其他服务共享资源。

添加我的t上面的答案是0美分

我更倾向于DataProc，因为它的管理和支持是由盒子。没有烟幕。更重要的是，成本优化。你可能不会需要集群的所有时间，你可以有短暂的集群与 dataproc
使用GKE，我需要显式地丢弃集群，并在必要。需要额外注意
我没有遇到GCP在数据方面提供的任何直接服务在这种情况下，我可能会将ApacheAlas与 Spark Atlas连接器在Spark安装上由我自己管理。在在这种情况下，在GKE上运行Spark，所有控制权都在我自己会做出一个令人信服的选择