For loop 如何在pyspark中进行并行计算以提高效率，而不是“循环”；至于？；_For Loop_Pyspark_Processing Efficiency

For loop 如何在pyspark中进行并行计算以提高效率，而不是“循环”；至于？；

for-loop pyspark

For loop 如何在pyspark中进行并行计算以提高效率，而不是“循环”；至于？；,for-loop,pyspark,processing-efficiency,For Loop,Pyspark,Processing Efficiency,输出： import pyspark.sql.functions as F pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e']) print df spark_df = sqlContext.createDataFrame(df) for col in ['b', 'c', 'd', 'e']: df_groupby = spark_df.groupby(col).coun

输出：

import pyspark.sql.functions as F
pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e'])
print df
spark_df = sqlContext.createDataFrame(df)
for col in ['b', 'c', 'd', 'e']:
    df_groupby = spark_df.groupby(col).count(F.col('a'))
    spark_df = spark_df.join(df_groupby, col, how = 'left')

我有一个大数据处理像这样的类型

我认为关于“for”的循环会降低效率

谁能告诉我如何并行计算以提高pyspark的效率

真诚的感谢

你想做什么？期望的输出是什么？您提供的代码有许多错误。我希望多个groupby并行计算检查这是否有效：

spark_df.select（'*'，*[F.count（'a'）。over（Window.partitionBy（c））.alias（'{}_cnt.format（c）），用于spark_df.columns[1:]]中的c。

    a   b   c   d   e
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24
5  25  26  27  28  29