Python 为Google Dataproc处理我们的数据询问合适的集群规范_Python_Pyspark_Google Cloud Platform_Google Cloud Dataproc

Python 为Google Dataproc处理我们的数据询问合适的集群规范

python pyspark google-cloud-platform

Python 为Google Dataproc处理我们的数据询问合适的集群规范,python,pyspark,google-cloud-platform,google-cloud-dataproc,Python,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我正试图为Kaggle竞赛处理一些大数据要处理的数据量约为80Gb，有20亿行x 6列数据被放在谷歌云存储中，并试图用谷歌数据实验室处理，但由于数据太大，我们遇到了错误消息因此，我们尝试将Pyspark与Google Dataproc系统结合使用关于这一点，我有两个问题： 1）这个选项够了吗 1个主节点实例：n1-highmem-4（vCPU:4，RAM:26GB） 10工作节点实例：n1-highmem-4（vCPU:4，RAM:26GB） 2）是否需要Google计算引擎来处

我正试图为Kaggle竞赛处理一些大数据

要处理的数据量约为80Gb，有20亿行x 6列

数据被放在谷歌云存储中，并试图用谷歌数据实验室处理，但由于数据太大，我们遇到了错误消息

因此，我们尝试将Pyspark与Google Dataproc系统结合使用

关于这一点，我有两个问题：

1）这个选项够了吗

1个主节点实例：n1-highmem-4（vCPU:4，RAM:26GB）
10工作节点实例：n1-highmem-4（vCPU:4，RAM:26GB）

2）是否需要Google计算引擎来处理Google Dataproc集群系统？如果是，在这种情况下，哪种方法合适

感谢您阅读本文，我将等待您的回答：）

谢谢

所以，首先，我将尝试解决计算引擎vs Dataproc的问题，然后讨论集群的规模

ComputeEngine是Google的IaaS产品，它基本上是一种加速虚拟机的服务。GoogleDataProc使用GoogleComputeEngine来加速虚拟机，这些虚拟机将充当集群中的节点/主节点。此外，Dataproc已经在节点上安装和配置了一些东西，因此您不必关心它。如果您需要节点上的更多内容，可以使用Google在集群上安装其他依赖项。因此，回答您的问题时，您需要Google Compute Engine，因为如果没有它，您将无法启动集群。而且，如果您已经准备好使用PySpark，那么Dataproc是正确的选择

关于大小，这实际上取决于您正在运行的分析类型以及数据是否均匀分布。如果您有一个热键/分片，其数据大于单个节点的内存，则需要增加节点大小。如果计算是CPU密集型的，则添加内核。GoogleDataProc的好处在于，您可以在90秒内启动一个集群，并在大约相同的时间内将其拆除。这应该给你的可能性，实验相当多

希望这有帮助

所以，首先，我将尝试解决计算引擎vs Dataproc的问题，然后讨论集群的规模

希望这有帮助