Pyspark Spark如何向集群发送功能?

Pyspark Spark如何向集群发送功能?,pyspark,apache-spark-sql,pickle,pyspark-dataframes,Pyspark,Apache Spark Sql,Pickle,Pyspark Dataframes,我正在使用pyspark 您可能知道,我们可以将一个函数传递给spark变换,并在spark群集上并行应用这些函数 我想知道这个过程是怎么发生的?spark如何将我的功能发送到群集?它如何找到与我的函数一起发送的依赖项 例如,假设我有这样一个函数: from another_module import h def f(): # create a dataframe by reading some data def g(row): # do some opera

我正在使用pyspark

您可能知道,我们可以将一个函数传递给spark变换,并在spark群集上并行应用这些函数

我想知道这个过程是怎么发生的?spark如何将我的功能发送到群集?它如何找到与我的函数一起发送的依赖项

例如,假设我有这样一个函数:

from another_module import h

def f():
    # create a dataframe by reading some data

    def g(row):
        # do some operation on the row
        # suppose I use some function from another module here like "h"
        return transformed_row

    return df.rdd.map(g).collect()
spark是否将整个另一个_模块发送到spark cluster?或者该函数只是返回一个错误,因为依赖项在spark workers上不可用