Performance DataProc的处理时间比预期的多3个小时,少于15分钟

Performance DataProc的处理时间比预期的多3个小时,少于15分钟,performance,google-cloud-platform,google-cloud-dataproc,data-processing,dataproc,Performance,Google Cloud Platform,Google Cloud Dataproc,Data Processing,Dataproc,我已经迁移了C应用程序的一部分,使用PySpark作业在DataProc上进行处理(读取和写入大查询—数据量—大约10GB)。在本地数据中心运行8分钟的C应用程序在data Proc上大约需要4小时。有人能告诉我最佳的数据处理配置吗?目前我正在使用以下一种: --主机类型n2-highmem-32--主机启动磁盘类型pd ssd--主机启动磁盘大小500--工作进程数2--工作进程类型n2-highmem-32--工作进程启动磁盘类型pd ssd--工作进程启动磁盘大小500--映像版本1.4-

我已经迁移了C应用程序的一部分,使用PySpark作业在DataProc上进行处理(读取和写入大查询—数据量—大约10GB)。在本地数据中心运行8分钟的C应用程序在data Proc上大约需要4小时。有人能告诉我最佳的数据处理配置吗?目前我正在使用以下一种:

--主机类型n2-highmem-32--主机启动磁盘类型pd ssd--主机启动磁盘大小500--工作进程数2--工作进程类型n2-highmem-32--工作进程启动磁盘类型pd ssd--工作进程启动磁盘大小500--映像版本1.4-debian10

非常感谢您对优化dataproc配置的帮助

谢谢,
RP

这里有一些关于Dataproc上的工作性能调整的好文章。

您的数据中心的硬件配置是什么?您正在指定“--num workers 2”。对于从并行化中受益的作业,如果将作业开销考虑在内,两个工作节点将不会提供太多好处(如果有的话)。编辑您的问题,包括环境和正在执行的代码的详细信息。作为提示,n2-highmem-32是一个小型VM。我的桌面速度可能是原来的10倍。在比较系统时,比较内存、CPU、网络和磁盘I/O中相同的系统。您可以共享用于在Datparoc上运行此作业的命令吗?另外,如何在Spark中并行处理?处理哪些数据以及如何对其进行分区?