Apache spark 纱线:Spark中执行器和执行器芯的数量有什么区别?
我正在AWS EMR上学习Spark。在这个过程中,我试图理解执行器数量(--num executors)和执行器内核(--executor cores)之间的区别。这里有谁能告诉我吗 此外,当我尝试提交以下作业时,我遇到错误:Apache spark 纱线:Spark中执行器和执行器芯的数量有什么区别?,apache-spark,yarn,emr,Apache Spark,Yarn,Emr,我正在AWS EMR上学习Spark。在这个过程中,我试图理解执行器数量(--num executors)和执行器内核(--executor cores)之间的区别。这里有谁能告诉我吗 此外,当我尝试提交以下作业时,我遇到错误: spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5 --executor-memory 1g -–conf spark.yarn.submit.w
spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5 --executor-memory 1g -–conf spark.yarn.submit.waitAppCompletion=false wordcount.py s3://test/spark-example/input/input.txt s3://test/spark-example/output21
Error: Unrecognized option: -–conf
Number of executors是将执行应用程序的不同容器(想想进程/JVM)的数量 Number of executor Core是每个执行器(容器)中的线程数
因此,spark应用程序的并行性(运行的并发线程/任务数)是
#executors X#executor cores
。如果您有10个执行器和5个执行器核心,那么(希望)您将同时运行50个任务 executor cores和spark.executor.cores有什么区别?@Riless它们是同义词。一个用于配置设置,而另一个用于将参数添加为命令行参数。我只是在这里的例子中使用了这两种方法中的一种,但是没有特别的理由让我选择其中一种。