For loop 如何在pyspark中进行并行计算以提高效率,而不是“循环”;至于?;
输出:For loop 如何在pyspark中进行并行计算以提高效率,而不是“循环”;至于?;,for-loop,pyspark,processing-efficiency,For Loop,Pyspark,Processing Efficiency,输出: import pyspark.sql.functions as F pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e']) print df spark_df = sqlContext.createDataFrame(df) for col in ['b', 'c', 'd', 'e']: df_groupby = spark_df.groupby(col).coun
import pyspark.sql.functions as F
pd_df = pd.DataFrame(np.arange(30).reshape(6 ,5), columns=['a', 'b', 'c', 'd', 'e'])
print df
spark_df = sqlContext.createDataFrame(df)
for col in ['b', 'c', 'd', 'e']:
df_groupby = spark_df.groupby(col).count(F.col('a'))
spark_df = spark_df.join(df_groupby, col, how = 'left')
我有一个大数据处理像这样的类型
我认为关于“for”的循环会降低效率
谁能告诉我如何并行计算以提高pyspark的效率
真诚的感谢你想做什么?期望的输出是什么?您提供的代码有许多错误。我希望多个groupby并行计算检查这是否有效:
spark_df.select('*',*[F.count('a')。over(Window.partitionBy(c)).alias('{}_cnt.format(c)),用于spark_df.columns[1:]]中的c。
a b c d e
0 0 1 2 3 4
1 5 6 7 8 9
2 10 11 12 13 14
3 15 16 17 18 19
4 20 21 22 23 24
5 25 26 27 28 29