Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 纱线:Spark中执行器和执行器芯的数量有什么区别?_Apache Spark_Yarn_Emr - Fatal编程技术网

Apache spark 纱线:Spark中执行器和执行器芯的数量有什么区别?

Apache spark 纱线:Spark中执行器和执行器芯的数量有什么区别?,apache-spark,yarn,emr,Apache Spark,Yarn,Emr,我正在AWS EMR上学习Spark。在这个过程中,我试图理解执行器数量(--num executors)和执行器内核(--executor cores)之间的区别。这里有谁能告诉我吗 此外,当我尝试提交以下作业时,我遇到错误: spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5 --executor-memory 1g -–conf spark.yarn.submit.w

我正在AWS EMR上学习Spark。在这个过程中,我试图理解执行器数量(--num executors)和执行器内核(--executor cores)之间的区别。这里有谁能告诉我吗

此外,当我尝试提交以下作业时,我遇到错误:

spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5   --executor-memory 1g -–conf spark.yarn.submit.waitAppCompletion=false wordcount.py s3://test/spark-example/input/input.txt s3://test/spark-example/output21

Error: Unrecognized option: -–conf

Number of executors是将执行应用程序的不同容器(想想进程/JVM)的数量

Number of executor Core是每个执行器(容器)中的线程数


因此,spark应用程序的并行性(运行的并发线程/任务数)是
#executors X#executor cores
。如果您有10个执行器和5个执行器核心,那么(希望)您将同时运行50个任务

executor cores和spark.executor.cores有什么区别?@Riless它们是同义词。一个用于配置设置,而另一个用于将参数添加为命令行参数。我只是在这里的例子中使用了这两种方法中的一种,但是没有特别的理由让我选择其中一种。