Pyspark 在Spark数据帧中执行MapReduce_Pyspark_Mapreduce

Pyspark 在Spark数据帧中执行MapReduce

pyspark mapreduce

Pyspark 在Spark数据帧中执行MapReduce,pyspark,mapreduce,Pyspark,Mapreduce,[数据] 我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map（lambda x:（x，1））和reduceByKey（），这将作为（卖方、日期、计数）例如：（1,3,5）我已经创建了一个数据帧，但不知道如何继续。请导游这是我创建的表，day列是从主数据列“tpep\u picku\u datetime”生成的对于数据帧，您可以使用API，因为pyspark没有允许映射的数据集 pyspark的DF等效值如下： df.groupBy("c1,&quo

[数据]

我不明白如何使用pyspark在数据帧上执行mapreduce 我想使用.map（lambda x:（x，1））和reduceByKey（），这将作为（卖方、日期、计数）例如：（1,3,5）我已经创建了一个数据帧，但不知道如何继续。请导游

这是我创建的表，day列是从主数据列“tpep\u picku\u datetime”生成的

对于数据帧，您可以使用API，因为pyspark没有允许映射的数据集

pyspark的DF等效值如下：

df.groupBy("c1," "c2").sum("c3").show(truncate=False)

或者以适当的方式使用其他agg函数。

使用我建议用于DF的groupBy