Python 2.7 Pyspark在bash模式下仅在两个节点上运行
我有一个7节点的纱线簇。我的目标是运行一个简单的PySpark表单程序Python 2.7 Pyspark在bash模式下仅在两个节点上运行,python-2.7,mapreduce,apache-spark,Python 2.7,Mapreduce,Apache Spark,我有一个7节点的纱线簇。我的目标是运行一个简单的PySpark表单程序 from pyspark import SparkContext def func(s): return processed_s sc = SparkContext("yarn-client", "App-name") arr= [Dataset] par= sc.parallelize(arr) out= par.map(func) stuff=out.collect() print stuff 我面
from pyspark import SparkContext
def func(s):
return processed_s
sc = SparkContext("yarn-client", "App-name")
arr= [Dataset]
par= sc.parallelize(arr)
out= par.map(func)
stuff=out.collect()
print stuff
我面临的问题是,当我试图用内置的sc
SparkContext在PySpark shell中完成任务时,程序会在所有节点上运行;但当我以/bin/pyspark/--master warn code.py
的形式运行它时,它只在两个节点上运行。是否需要调整任何参数来控制程序运行在多少节点上