Apache spark 订购人+；缓存正在调用mesos群集上的工作_Apache Spark

Apache spark 订购人+；缓存正在调用mesos群集上的工作

apache-spark

Apache spark 订购人+；缓存正在调用mesos群集上的工作,apache-spark,Apache Spark,Spark版本：1.3.1 集群：Mesos 0.22.0 Scala版本：2.10.4 在rdd上调用缓存时，我看到在集群上完成的工作。我希望下面的最后一行代码不会调用任何集群工作。是否存在缓存执行群集工作的条件 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ // work is done to load the json into the dataframe val

Spark版本：1.3.1
集群：Mesos 0.22.0
Scala版本：2.10.4

在rdd上调用缓存时，我看到在集群上完成的工作。我希望下面的最后一行代码不会调用任何集群工作。是否存在缓存执行群集工作的条件

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
// work is done to load the json into the dataframe
val people = sc.parallelize(
  """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil
)
val peoplDF = sqlContext.jsonRDD(people).toDF()
// No work is done for the orderBy, as expected
val orderBy = peoplDF.orderBy("name")
// Jobs are run when invoking cache, expectation was nothing would run on the cluster
val orderByCache = orderBy.cache

昨天，我遇到了几乎相同的行为（尽管在我的例子中，查询没有任何顺序，Spark处于本地模式）。就个人而言，我认为这是Spark QueryExecution（或其周围的某个地方）中的一个bug。如果输入数据框中存在“orderBy”，df.toJavaRDD似乎也会触发作业执行。昨天我遇到了几乎相同的行为（尽管在我的例子中，查询没有任何顺序，Spark处于本地模式）。就个人而言，我认为这是Spark QueryExecution（或其周围的某个地方）中的一个bug。df.toJavaRDD似乎也会在输入数据帧中出现“orderBy”时触发作业执行。