Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 2.7 在pyspark的dataframe中迭代列,而不为单个列创建不同的dataframe_Python 2.7_Pyspark_Spark Dataframe - Fatal编程技术网

Python 2.7 在pyspark的dataframe中迭代列,而不为单个列创建不同的dataframe

Python 2.7 在pyspark的dataframe中迭代列,而不为单个列创建不同的dataframe,python-2.7,pyspark,spark-dataframe,Python 2.7,Pyspark,Spark Dataframe,我们如何迭代数据帧中的列,以便在同一数据帧中分别对某些或所有列执行计算,而不为单个列生成不同的数据帧(类似于map迭代rdd中的行,并在不为每行生成不同rdd的情况下对行执行计算)。 我得出了下面给出的解决方案 l = list of column names df = dataframe in pyspark def plusone(df_column): return (df_column + 1) df1 = df.select(map(lambda x: (plusone(ge

我们如何迭代数据帧中的列,以便在同一数据帧中分别对某些或所有列执行计算,而不为单个列生成不同的数据帧(类似于map迭代rdd中的行,并在不为每行生成不同rdd的情况下对行执行计算)。 我得出了下面给出的解决方案

l = list of column names
df = dataframe in pyspark
def plusone(df_column):
    return (df_column + 1)

df1 = df.select(map(lambda x: (plusone(getattribute(df,l[x]))) if x ==0 else getattribute(df,l[x]), range(len(l))))
print df1.show()
通过这种方式,我得到了一个数据帧,其中包含我想要的特定列中的更改,而不是为一个列创建不同的数据帧,然后与df合并并删除旧列

此代码的问题在于,当map在列表上迭代时,它不会在spark上分发。我希望这样的东西以分布式的方式出现。

注意-我不想使用rdd


提前谢谢

使用spark udf在数据帧上使用with列,而不是使用map。 在udf内部,通过以下方式定义函数并执行逻辑:

  • 您没有使用列表,它是不可并行的
  • udf及其内部的函数将传递给并行运行的每个excutor

  • 如果我理解错了,请纠正我。你的意思是我应该在一个udf中使用map,而只是在udf中调用dataframe吗?因为如果我只是使用没有映射的udf,我将不得不手动传递udf中的每一列。我希望在一行中处理所有列,而不是分别为每列编写代码。不,传递整行(x),就像您已经在使用lambda x,而不是map define func()来执行udf中的逻辑一样