Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在具有不同内存量和内核的群集上调整spark作业_Apache Spark_Hadoop_Pyspark - Fatal编程技术网

Apache spark 如何在具有不同内存量和内核的群集上调整spark作业

Apache spark 如何在具有不同内存量和内核的群集上调整spark作业,apache-spark,hadoop,pyspark,Apache Spark,Hadoop,Pyspark,我正在进行一个spark项目,我正在使用一个包含3个节点的hadoop集群,配置如下: Ram的8核和16go(名称节点、应用程序主节点、节点管理员和spark主节点和辅助节点) Ram的4个核心和8个GO(数据节点、节点管理器和工作器) 4内存的核心和4go(数据节点、节点管理器和工作器) 因此,我使用以下配置: pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1 在我的集群性能中,执行器、内存和内核的最佳使用量是多少?这

我正在进行一个spark项目,我正在使用一个包含3个节点的hadoop集群,配置如下:

  • Ram的8核和16go(名称节点、应用程序主节点、节点管理员和spark主节点和辅助节点)
  • Ram的4个核心和8个GO(数据节点、节点管理器和工作器)
  • 4内存的核心和4go(数据节点、节点管理器和工作器) 因此,我使用以下配置:

    pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1


在我的集群性能中,执行器、内存和内核的最佳使用量是多少?

这基本上归结为您需要处理多少数据。如果您有整个集群来处理数据,那么您可以完全使用它

pyspark——主纱线客户端——驱动程序内存3g——执行器内存1g——num executors 3——执行器核心1

这里您没有使用完整的集群。您使用的是3gb驱动程序和1GB执行器,其中3个执行器意味着总共3gb内存,而集群中有12GB内存和8个内核。您可以尝试另一种配置

pyspark——主纱线客户端——驱动程序内存8g——执行器内存3g——num executors 4——执行器核心3

这将使用完整的集群

但是,执行器内存配置主要基于作业需求。你需要通过多次尝试来调整它。您可以检查这一点进行调整。

Sandy Ryza的博客文章很好地解释了资源分配和各种开销,是一个方便的Excel备忘单


但是,如果您不熟悉Spark和/或经常更改群集大小/类型,我是否可以建议启用?

Thnx appriciated