Pyspark 在Spark数据帧中执行MapReduce

Pyspark 在Spark数据帧中执行MapReduce,pyspark,mapreduce,Pyspark,Mapreduce,[数据] 我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map(lambda x:(x,1))和reduceByKey(),这将作为 (卖方、日期、计数)例如:(1,3,5) 我已经创建了一个数据帧,但不知道如何继续。请导游 这是我创建的表,day列是从主数据列“tpep\u picku\u datetime”生成的 对于数据帧,您可以使用API,因为pyspark没有允许映射的数据集 pyspark的DF等效值如下: df.groupBy("c1,&quo

[数据]

我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map(lambda x:(x,1))和reduceByKey(),这将作为 (卖方、日期、计数)例如:(1,3,5) 我已经创建了一个数据帧,但不知道如何继续。请导游

这是我创建的表,day列是从主数据列“tpep\u picku\u datetime”生成的


对于数据帧,您可以使用API,因为pyspark没有允许映射的数据集

pyspark的DF等效值如下:

df.groupBy("c1," "c2").sum("c3").show(truncate=False)

或者以适当的方式使用其他agg函数。

使用我建议用于DF的groupBy