Python Pyspark替代spark.lappy？_Python_Apache Spark_Pyspark_Sparkr

Python Pyspark替代spark.lappy？

python apache-spark pyspark

Python Pyspark替代spark.lappy？,python,apache-spark,pyspark,sparkr,Python,Apache Spark,Pyspark,Sparkr,我有一个计算密集型python函数，在for循环中反复调用（每个迭代都是独立的，即令人尴尬的并行）。我正在寻找spark.lappy（来自SparkR）这类功能来利用spark集群本机Spark 如果使用Spark数据帧和库，则Spark将以本机方式并行和分发任务线程池在Spark中实现并行性而不使用Spark数据帧的方法之一是使用多处理库。但是，默认情况下，所有代码都将在驱动程序节点上运行熊猫UDF Spark中支持并行处理的较新功能之一是UDF。使用此功能，您可以将Spark数据帧划

我有一个计算密集型python函数，在for循环中反复调用（每个迭代都是独立的，即令人尴尬的并行）。我正在寻找spark.lappy（来自SparkR）这类功能来利用spark集群

本机Spark 如果使用Spark数据帧和库，则Spark将以本机方式并行和分发任务

线程池 在Spark中实现并行性而不使用Spark数据帧的方法之一是使用多处理库。但是，默认情况下，所有代码都将在驱动程序节点上运行

熊猫UDF Spark中支持并行处理的较新功能之一是UDF。使用此功能，您可以将Spark数据帧划分为更小的数据集，这些数据集分布并转换为Pandas对象，然后将结果合并回一个较大的Spark数据帧

来自

From：从列表中创建dataframe，从函数中创建UDF，添加带有转换值的新列，最后收集。

from pyspark.sql.functions import udf

# Use udf to define a row-at-a-time udf
@udf('double')
# Input/output are both a single double value
def plus_one(v):
      return v + 1

df.withColumn('v2', plus_one(df.v))