Python 2.7 在pyspark的dataframe中迭代列，而不为单个列创建不同的dataframe_Python 2.7_Pyspark_Spark Dataframe

Python 2.7 在pyspark的dataframe中迭代列，而不为单个列创建不同的dataframe

python-2.7 pyspark

Python 2.7 在pyspark的dataframe中迭代列，而不为单个列创建不同的dataframe,python-2.7,pyspark,spark-dataframe,Python 2.7,Pyspark,Spark Dataframe,我们如何迭代数据帧中的列，以便在同一数据帧中分别对某些或所有列执行计算，而不为单个列生成不同的数据帧（类似于map迭代rdd中的行，并在不为每行生成不同rdd的情况下对行执行计算）。我得出了下面给出的解决方案 l = list of column names df = dataframe in pyspark def plusone(df_column): return (df_column + 1) df1 = df.select(map(lambda x: (plusone(ge

我们如何迭代数据帧中的列，以便在同一数据帧中分别对某些或所有列执行计算，而不为单个列生成不同的数据帧（类似于map迭代rdd中的行，并在不为每行生成不同rdd的情况下对行执行计算）。我得出了下面给出的解决方案

l = list of column names
df = dataframe in pyspark
def plusone(df_column):
    return (df_column + 1)

df1 = df.select(map(lambda x: (plusone(getattribute(df,l[x]))) if x ==0 else getattribute(df,l[x]), range(len(l))))
print df1.show()

通过这种方式，我得到了一个数据帧，其中包含我想要的特定列中的更改，而不是为一个列创建不同的数据帧，然后与df合并并删除旧列

此代码的问题在于，当map在列表上迭代时，它不会在spark上分发。我希望这样的东西以分布式的方式出现。

注意-我不想使用rdd

提前谢谢

使用spark udf在数据帧上使用with列，而不是使用map。在udf内部，通过以下方式定义函数并执行逻辑：

您没有使用列表，它是不可并行的

udf及其内部的函数将传递给并行运行的每个excutor

如果我理解错了，请纠正我。你的意思是我应该在一个udf中使用map，而只是在udf中调用dataframe吗？因为如果我只是使用没有映射的udf，我将不得不手动传递udf中的每一列。我希望在一行中处理所有列，而不是分别为每列编写代码。不，传递整行（x），就像您已经在使用lambda x，而不是map define func（）来执行udf中的逻辑一样