Python 为Google Dataproc处理我们的数据询问合适的集群规范

Python 为Google Dataproc处理我们的数据询问合适的集群规范,python,pyspark,google-cloud-platform,google-cloud-dataproc,Python,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我正试图为Kaggle竞赛处理一些大数据 要处理的数据量约为80Gb,有20亿行x 6列 数据被放在谷歌云存储中,并试图用谷歌数据实验室处理,但由于数据太大,我们遇到了错误消息 因此,我们尝试将Pyspark与Google Dataproc系统结合使用 关于这一点,我有两个问题: 1) 这个选项够了吗 1个主节点实例:n1-highmem-4(vCPU:4,RAM:26GB) 10工作节点实例:n1-highmem-4(vCPU:4,RAM:26GB) 2) 是否需要Google计算引擎来处

我正试图为Kaggle竞赛处理一些大数据

要处理的数据量约为80Gb,有20亿行x 6列

数据被放在谷歌云存储中,并试图用谷歌数据实验室处理,但由于数据太大,我们遇到了错误消息

因此,我们尝试将Pyspark与Google Dataproc系统结合使用

关于这一点,我有两个问题:

1) 这个选项够了吗

  • 1个主节点实例:n1-highmem-4(vCPU:4,RAM:26GB)

  • 10工作节点实例:n1-highmem-4(vCPU:4,RAM:26GB)

2) 是否需要Google计算引擎来处理Google Dataproc集群系统?如果是,在这种情况下,哪种方法合适

感谢您阅读本文,我将等待您的回答:)


谢谢

所以,首先,我将尝试解决计算引擎vs Dataproc的问题,然后讨论集群的规模

ComputeEngine是Google的IaaS产品,它基本上是一种加速虚拟机的服务。GoogleDataProc使用GoogleComputeEngine来加速虚拟机,这些虚拟机将充当集群中的节点/主节点。此外,Dataproc已经在节点上安装和配置了一些东西,因此您不必关心它。如果您需要节点上的更多内容,可以使用Google在集群上安装其他依赖项。因此,回答您的问题时,您需要Google Compute Engine,因为如果没有它,您将无法启动集群。而且,如果您已经准备好使用PySpark,那么Dataproc是正确的选择

关于大小,这实际上取决于您正在运行的分析类型以及数据是否均匀分布。如果您有一个热键/分片,其数据大于单个节点的内存,则需要增加节点大小。如果计算是CPU密集型的,则添加内核。GoogleDataProc的好处在于,您可以在90秒内启动一个集群,并在大约相同的时间内将其拆除。这应该给你的可能性,实验相当多


希望这有帮助

所以,首先,我将尝试解决计算引擎vs Dataproc的问题,然后讨论集群的规模

ComputeEngine是Google的IaaS产品,它基本上是一种加速虚拟机的服务。GoogleDataProc使用GoogleComputeEngine来加速虚拟机,这些虚拟机将充当集群中的节点/主节点。此外,Dataproc已经在节点上安装和配置了一些东西,因此您不必关心它。如果您需要节点上的更多内容,可以使用Google在集群上安装其他依赖项。因此,回答您的问题时,您需要Google Compute Engine,因为如果没有它,您将无法启动集群。而且,如果您已经准备好使用PySpark,那么Dataproc是正确的选择

关于大小,这实际上取决于您正在运行的分析类型以及数据是否均匀分布。如果您有一个热键/分片,其数据大于单个节点的内存,则需要增加节点大小。如果计算是CPU密集型的,则添加内核。GoogleDataProc的好处在于,您可以在90秒内启动一个集群,并在大约相同的时间内将其拆除。这应该给你的可能性,实验相当多

希望这有帮助