Apache spark SparkContext()和SparkConf()是否存在错误
当我尝试使用SparkConf初始化SparkContext时,如下所示:Apache spark SparkContext()和SparkConf()是否存在错误,apache-spark,pyspark,Apache Spark,Pyspark,当我尝试使用SparkConf初始化SparkContext时,如下所示: from pyspark import * from pyspark.streaming import * cfg = SparkConf().setMaster('yarn').setAppName('MyApp') sc = SparkContext(conf=cfg) print(sc.getConf().getAll()) rdd = sc.parallelize(list('abcdefg')).map(l
from pyspark import *
from pyspark.streaming import *
cfg = SparkConf().setMaster('yarn').setAppName('MyApp')
sc = SparkContext(conf=cfg)
print(sc.getConf().getAll())
rdd = sc.parallelize(list('abcdefg')).map(lambda x:(x,1))
print(rdd.collect())
输出显示它不与纱线一起运行:
[(u'spark.master', u'local[10]'), ...]
它使用了$SPARK_HOME/conf/SPARK-defaults.conf中的配置:
spark.master local[10]
我的电脑:
蟒蛇2.7.2 Spark2.1.0
然后我在spark2.0.2中运行相同的代码,SparkConf()也可以运行
所以这真的是一个bug?要利用Thread,您应该指定驱动程序是在主节点上运行还是在工作节点上运行 纱线客户端将在主节点上执行驱动程序
SparkConf().setMaster('yarn-client')
纱线集群将在其中一个工作节点上执行驱动程序
SparkConf().setMaster('yarn-cluster')
是在客户机模式下运行的示例