Pyspark Spark如何向集群发送功能？_Pyspark_Apache Spark Sql_Pickle_Pyspark Dataframes

Pyspark Spark如何向集群发送功能？

pyspark

Pyspark Spark如何向集群发送功能？,pyspark,apache-spark-sql,pickle,pyspark-dataframes,Pyspark,Apache Spark Sql,Pickle,Pyspark Dataframes,我正在使用pyspark 您可能知道，我们可以将一个函数传递给spark变换，并在spark群集上并行应用这些函数我想知道这个过程是怎么发生的？spark如何将我的功能发送到群集？它如何找到与我的函数一起发送的依赖项例如，假设我有这样一个函数： from another_module import h def f(): # create a dataframe by reading some data def g(row): # do some opera

我正在使用pyspark

您可能知道，我们可以将一个函数传递给spark变换，并在spark群集上并行应用这些函数

我想知道这个过程是怎么发生的？spark如何将我的功能发送到群集？它如何找到与我的函数一起发送的依赖项

例如，假设我有这样一个函数：

from another_module import h

def f():
    # create a dataframe by reading some data

    def g(row):
        # do some operation on the row
        # suppose I use some function from another module here like "h"
        return transformed_row

    return df.rdd.map(g).collect()

spark是否将整个另一个_模块发送到spark cluster？或者该函数只是返回一个错误，因为依赖项在spark workers上不可用