Scala Spark data frame未使用工人

Scala Spark data frame未使用工人,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个带有3个工作节点的spark群集,当我尝试从hdfs加载csv文件时,它只利用系统上的资源(cpu和内存),我通过spark shell(使用的主节点)加载csv 加载数据帧 val df = spark.read.format("csv") .option("header","true") .load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv") df.a

我有一个带有3个工作节点的spark群集,当我尝试从hdfs加载csv文件时,它只利用系统上的资源(cpu和内存),我通过spark shell(使用的主节点)加载csv

加载数据帧

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")
df.agg(sum("failure")).show
对数据帧执行一些操作

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")
df.agg(sum("failure")).show

当我加载csv时,系统内存将增加1.3 GB,即hdfs文件大小和100%CPU使用率。工人的CPU闲置率接近0%,内存使用率没有变化。理想情况下,我希望所有的繁重工作都由工人来完成,而这并没有发生。

将火花模式设置为集群模式,这样可以解决您的问题。看起来您的作业正在客户端模式下运行。

如何操作,请您指向资源。您可以搜索Spark执行模式-我发现以下链接很有用