For loop 如何在pyspark中进行并行计算以提高效率,而不是“循环”;至于?;

For loop 如何在pyspark中进行并行计算以提高效率,而不是“循环”;至于?;,for-loop,pyspark,processing-efficiency,For Loop,Pyspark,Processing Efficiency,输出: import pyspark.sql.functions as F pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e']) print df spark_df = sqlContext.createDataFrame(df) for col in ['b', 'c', 'd', 'e']: df_groupby = spark_df.groupby(col).coun

输出:

import pyspark.sql.functions as F
pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e'])
print df
spark_df = sqlContext.createDataFrame(df)
for col in ['b', 'c', 'd', 'e']:
    df_groupby = spark_df.groupby(col).count(F.col('a'))
    spark_df = spark_df.join(df_groupby, col, how = 'left')
我有一个大数据处理像这样的类型

我认为关于“for”的循环会降低效率

谁能告诉我如何并行计算以提高pyspark的效率


真诚的感谢

你想做什么?期望的输出是什么?您提供的代码有许多错误。我希望多个groupby并行计算检查这是否有效:
spark_df.select('*',*[F.count('a')。over(Window.partitionBy(c)).alias('{}_cnt.format(c)),用于spark_df.columns[1:]]中的c。
    a   b   c   d   e
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24
5  25  26  27  28  29