Python Pyspark替代spark.lappy?

Python Pyspark替代spark.lappy?,python,apache-spark,pyspark,sparkr,Python,Apache Spark,Pyspark,Sparkr,我有一个计算密集型python函数,在for循环中反复调用(每个迭代都是独立的,即令人尴尬的并行)。我正在寻找spark.lappy(来自SparkR)这类功能来利用spark集群 本机Spark 如果使用Spark数据帧和库,则Spark将以本机方式并行和分发任务 线程池 在Spark中实现并行性而不使用Spark数据帧的方法之一是使用多处理库。但是,默认情况下,所有代码都将在驱动程序节点上运行 熊猫UDF Spark中支持并行处理的较新功能之一是UDF。使用此功能,您可以将Spark数据帧划

我有一个计算密集型python函数,在for循环中反复调用(每个迭代都是独立的,即令人尴尬的并行)。我正在寻找spark.lappy(来自SparkR)这类功能来利用spark集群

本机Spark 如果使用Spark数据帧和库,则Spark将以本机方式并行和分发任务

线程池 在Spark中实现并行性而不使用Spark数据帧的方法之一是使用多处理库。但是,默认情况下,所有代码都将在驱动程序节点上运行

熊猫UDF Spark中支持并行处理的较新功能之一是UDF。使用此功能,您可以将Spark数据帧划分为更小的数据集,这些数据集分布并转换为Pandas对象,然后将结果合并回一个较大的Spark数据帧

来自

From:从列表中创建dataframe,从函数中创建UDF,添加带有转换值的新列,最后收集。
from pyspark.sql.functions import udf

# Use udf to define a row-at-a-time udf
@udf('double')
# Input/output are both a single double value
def plus_one(v):
      return v + 1

df.withColumn('v2', plus_one(df.v))