Scala Spark data frame未使用工人_Scala_Apache Spark_Apache Spark Sql

Scala Spark data frame未使用工人

scala apache-spark

Scala Spark data frame未使用工人,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我有一个带有3个工作节点的spark群集，当我尝试从hdfs加载csv文件时，它只利用系统上的资源（cpu和内存），我通过spark shell（使用的主节点）加载csv 加载数据帧 val df = spark.read.format("csv") .option("header","true") .load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv") df.a

我有一个带有3个工作节点的spark群集，当我尝试从hdfs加载csv文件时，它只利用系统上的资源（cpu和内存），我通过spark shell（使用的主节点）加载csv

加载数据帧

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")

df.agg(sum("failure")).show

对数据帧执行一些操作

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")

df.agg(sum("failure")).show

当我加载csv时，系统内存将增加1.3 GB，即hdfs文件大小和100%CPU使用率。工人的CPU闲置率接近0%，内存使用率没有变化。理想情况下，我希望所有的繁重工作都由工人来完成，而这并没有发生。

将火花模式设置为集群模式，这样可以解决您的问题。看起来您的作业正在客户端模式下运行。

如何操作，请您指向资源。您可以搜索Spark执行模式-我发现以下链接很有用