Apache spark 如何在具有不同内存量和内核的群集上调整spark作业_Apache Spark_Hadoop_Pyspark

Apache spark 如何在具有不同内存量和内核的群集上调整spark作业

apache-spark hadoop pyspark

Apache spark 如何在具有不同内存量和内核的群集上调整spark作业,apache-spark,hadoop,pyspark,Apache Spark,Hadoop,Pyspark,我正在进行一个spark项目，我正在使用一个包含3个节点的hadoop集群，配置如下： Ram的8核和16go（名称节点、应用程序主节点、节点管理员和spark主节点和辅助节点） Ram的4个核心和8个GO（数据节点、节点管理器和工作器） 4内存的核心和4go（数据节点、节点管理器和工作器）因此，我使用以下配置： pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1 在我的集群性能中，执行器、内存和内核的最佳使用量是多少？这

我正在进行一个spark项目，我正在使用一个包含3个节点的hadoop集群，配置如下：

Ram的8核和16go（名称节点、应用程序主节点、节点管理员和spark主节点和辅助节点）

Ram的4个核心和8个GO（数据节点、节点管理器和工作器）

4内存的核心和4go（数据节点、节点管理器和工作器）因此，我使用以下配置：

pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1

在我的集群性能中，执行器、内存和内核的最佳使用量是多少？
这基本上归结为您需要处理多少数据。如果您有整个集群来处理数据，那么您可以完全使用它

pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1
这里您没有使用完整的集群。您使用的是3gb驱动程序和1GB执行器，其中3个执行器意味着总共3gb内存，而集群中有12GB内存和8个内核。您可以尝试另一种配置

pyspark——主纱线客户端——驱动程序内存8g——执行器内存3g——num executors 4——执行器核心3
这将使用完整的集群
但是，执行器内存配置主要基于作业需求。你需要通过多次尝试来调整它。您可以检查这一点进行调整。
Sandy Ryza的博客文章很好地解释了资源分配和各种开销，是一个方便的Excel备忘单

但是，如果您不熟悉Spark和/或经常更改群集大小/类型，我是否可以建议启用？
Thnx appriciated