Apache spark 映射和筛选RDD时如何传递多个参数?

Apache spark 映射和筛选RDD时如何传递多个参数?,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,我目前有这行代码来过滤RDD并将其应用于函数 data_to_update.rdd.map(find_differences).filter(lambda row: bool(row)) 我想修改find_differences函数,以便在行之外还采用另一个参数unique_id。我不确定如何修改这一行来实现这一点,或者是否有更好的方法来编写它。假设您的cuurent函数如下所示: def find_differences(row): # do something return

我目前有这行代码来过滤RDD并将其应用于函数

data_to_update.rdd.map(find_differences).filter(lambda row: bool(row))

我想修改
find_differences
函数,以便在
之外还采用另一个参数
unique_id
。我不确定如何修改这一行来实现这一点,或者是否有更好的方法来编写它。

假设您的cuurent函数如下所示:

def find_differences(row):
    # do something
    return result
您可以创建与原始函数匹配的新函数和部分函数:

from functools import partial 

def find_differences_id(unique_id, row):
    # do something else
    return another_result

find_differences = partial(find_differences_id, unique_id)

并像以前一样映射RDD。

是否使用折叠操作?