Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 订购人+;缓存正在调用mesos群集上的工作_Apache Spark - Fatal编程技术网

Apache spark 订购人+;缓存正在调用mesos群集上的工作

Apache spark 订购人+;缓存正在调用mesos群集上的工作,apache-spark,Apache Spark,Spark版本:1.3.1 集群:Mesos 0.22.0 Scala版本:2.10.4 在rdd上调用缓存时,我看到在集群上完成的工作。我希望下面的最后一行代码不会调用任何集群工作。是否存在缓存执行群集工作的条件 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ // work is done to load the json into the dataframe val

Spark版本:1.3.1
集群:Mesos 0.22.0
Scala版本:2.10.4

在rdd上调用缓存时,我看到在集群上完成的工作。我希望下面的最后一行代码不会调用任何集群工作。是否存在缓存执行群集工作的条件

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
// work is done to load the json into the dataframe
val people = sc.parallelize(
  """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil
)
val peoplDF = sqlContext.jsonRDD(people).toDF()
// No work is done for the orderBy, as expected
val orderBy = peoplDF.orderBy("name")
// Jobs are run when invoking cache, expectation was nothing would run on the cluster
val orderByCache = orderBy.cache

昨天,我遇到了几乎相同的行为(尽管在我的例子中,查询没有任何顺序,Spark处于本地模式)。就个人而言,我认为这是Spark QueryExecution(或其周围的某个地方)中的一个bug。如果输入数据框中存在“orderBy”,df.toJavaRDD似乎也会触发作业执行。昨天我遇到了几乎相同的行为(尽管在我的例子中,查询没有任何顺序,Spark处于本地模式)。就个人而言,我认为这是Spark QueryExecution(或其周围的某个地方)中的一个bug。df.toJavaRDD似乎也会在输入数据帧中出现“orderBy”时触发作业执行。