Pyspark Spark如何向集群发送功能?
我正在使用pyspark 您可能知道,我们可以将一个函数传递给spark变换,并在spark群集上并行应用这些函数 我想知道这个过程是怎么发生的?spark如何将我的功能发送到群集?它如何找到与我的函数一起发送的依赖项 例如,假设我有这样一个函数:Pyspark Spark如何向集群发送功能?,pyspark,apache-spark-sql,pickle,pyspark-dataframes,Pyspark,Apache Spark Sql,Pickle,Pyspark Dataframes,我正在使用pyspark 您可能知道,我们可以将一个函数传递给spark变换,并在spark群集上并行应用这些函数 我想知道这个过程是怎么发生的?spark如何将我的功能发送到群集?它如何找到与我的函数一起发送的依赖项 例如,假设我有这样一个函数: from another_module import h def f(): # create a dataframe by reading some data def g(row): # do some opera
from another_module import h
def f():
# create a dataframe by reading some data
def g(row):
# do some operation on the row
# suppose I use some function from another module here like "h"
return transformed_row
return df.rdd.map(g).collect()
spark是否将整个另一个_模块发送到spark cluster?或者该函数只是返回一个错误,因为依赖项在spark workers上不可用