Python 2.7 在pyspark的dataframe中迭代列,而不为单个列创建不同的dataframe
我们如何迭代数据帧中的列,以便在同一数据帧中分别对某些或所有列执行计算,而不为单个列生成不同的数据帧(类似于map迭代rdd中的行,并在不为每行生成不同rdd的情况下对行执行计算)。 我得出了下面给出的解决方案Python 2.7 在pyspark的dataframe中迭代列,而不为单个列创建不同的dataframe,python-2.7,pyspark,spark-dataframe,Python 2.7,Pyspark,Spark Dataframe,我们如何迭代数据帧中的列,以便在同一数据帧中分别对某些或所有列执行计算,而不为单个列生成不同的数据帧(类似于map迭代rdd中的行,并在不为每行生成不同rdd的情况下对行执行计算)。 我得出了下面给出的解决方案 l = list of column names df = dataframe in pyspark def plusone(df_column): return (df_column + 1) df1 = df.select(map(lambda x: (plusone(ge
l = list of column names
df = dataframe in pyspark
def plusone(df_column):
return (df_column + 1)
df1 = df.select(map(lambda x: (plusone(getattribute(df,l[x]))) if x ==0 else getattribute(df,l[x]), range(len(l))))
print df1.show()
通过这种方式,我得到了一个数据帧,其中包含我想要的特定列中的更改,而不是为一个列创建不同的数据帧,然后与df合并并删除旧列
此代码的问题在于,当map在列表上迭代时,它不会在spark上分发。我希望这样的东西以分布式的方式出现。
注意-我不想使用rdd
提前谢谢 使用spark udf在数据帧上使用with列,而不是使用map。 在udf内部,通过以下方式定义函数并执行逻辑:
如果我理解错了,请纠正我。你的意思是我应该在一个udf中使用map,而只是在udf中调用dataframe吗?因为如果我只是使用没有映射的udf,我将不得不手动传递udf中的每一列。我希望在一行中处理所有列,而不是分别为每列编写代码。不,传递整行(x),就像您已经在使用lambda x,而不是map define func()来执行udf中的逻辑一样