Apache spark 映射和筛选RDD时如何传递多个参数？_Apache Spark_Pyspark_Rdd

Apache spark 映射和筛选RDD时如何传递多个参数？

apache-spark pyspark

Apache spark 映射和筛选RDD时如何传递多个参数？,apache-spark,pyspark,rdd,Apache Spark,Pyspark,Rdd,我目前有这行代码来过滤RDD并将其应用于函数 data_to_update.rdd.map(find_differences).filter(lambda row: bool(row)) 我想修改find_differences函数，以便在行之外还采用另一个参数unique_id。我不确定如何修改这一行来实现这一点，或者是否有更好的方法来编写它。假设您的cuurent函数如下所示： def find_differences(row): # do something return

我目前有这行代码来过滤RDD并将其应用于函数

data_to_update.rdd.map(find_differences).filter(lambda row: bool(row))

我想修改

find_differences

函数，以便在

行

之外还采用另一个参数

unique_id

。我不确定如何修改这一行来实现这一点，或者是否有更好的方法来编写它。

假设您的cuurent函数如下所示：

def find_differences(row):
    # do something
    return result

您可以创建与原始函数匹配的新函数和部分函数：

from functools import partial 

def find_differences_id(unique_id, row):
    # do something else
    return another_result

find_differences = partial(find_differences_id, unique_id)

并像以前一样映射RDD。

是否使用折叠操作？