Performance DataProc的处理时间比预期的多3个小时，少于15分钟_Performance_Google Cloud Platform_Google Cloud Dataproc_Data Processing_Dataproc

Performance DataProc的处理时间比预期的多3个小时，少于15分钟

performance google-cloud-platform

Performance DataProc的处理时间比预期的多3个小时，少于15分钟,performance,google-cloud-platform,google-cloud-dataproc,data-processing,dataproc,Performance,Google Cloud Platform,Google Cloud Dataproc,Data Processing,Dataproc,我已经迁移了C应用程序的一部分，使用PySpark作业在DataProc上进行处理（读取和写入大查询—数据量—大约10GB）。在本地数据中心运行8分钟的C应用程序在data Proc上大约需要4小时。有人能告诉我最佳的数据处理配置吗？目前我正在使用以下一种： --主机类型n2-highmem-32--主机启动磁盘类型pd ssd--主机启动磁盘大小500--工作进程数2--工作进程类型n2-highmem-32--工作进程启动磁盘类型pd ssd--工作进程启动磁盘大小500--映像版本1.4-

我已经迁移了C应用程序的一部分，使用PySpark作业在DataProc上进行处理（读取和写入大查询—数据量—大约10GB）。在本地数据中心运行8分钟的C应用程序在data Proc上大约需要4小时。有人能告诉我最佳的数据处理配置吗？目前我正在使用以下一种：

--主机类型n2-highmem-32--主机启动磁盘类型pd ssd--主机启动磁盘大小500--工作进程数2--工作进程类型n2-highmem-32--工作进程启动磁盘类型pd ssd--工作进程启动磁盘大小500--映像版本1.4-debian10

非常感谢您对优化dataproc配置的帮助

谢谢，

这里有一些关于Dataproc上的工作性能调整的好文章。

您的数据中心的硬件配置是什么？您正在指定“--num workers 2”。对于从并行化中受益的作业，如果将作业开销考虑在内，两个工作节点将不会提供太多好处（如果有的话）。编辑您的问题，包括环境和正在执行的代码的详细信息。作为提示，n2-highmem-32是一个小型VM。我的桌面速度可能是原来的10倍。在比较系统时，比较内存、CPU、网络和磁盘I/O中相同的系统。您可以共享用于在Datparoc上运行此作业的命令吗？另外，如何在Spark中并行处理？处理哪些数据以及如何对其进行分区？