Python 如何在PySpark中使用RDD aggregate（）和groupBy（）查找最大值_Python_Apache Spark_Pyspark_Rdd

Python 如何在PySpark中使用RDD aggregate（）和groupBy（）查找最大值

python apache-spark pyspark

Python 如何在PySpark中使用RDD aggregate（）和groupBy（）查找最大值,python,apache-spark,pyspark,rdd,Python,Apache Spark,Pyspark,Rdd,我试图在RDD中找到每个国家总数的最大值。作为参考，我使用的数据是这种格式的 . 我想使用rdd.aggregate（zero，seqOp，combOp）和rdd.groupBy（）来解决这个问题，以便更好地理解它们是如何协同工作的我已经用aggregate（）做了很多尝试和错误，但我不明白如何构造lambda函数来计算最大值

我试图在RDD中找到每个国家总数的最大值。作为参考，我使用的数据是这种格式的 . 我想使用

rdd.aggregate（zero，seqOp，combOp）

和

rdd.groupBy（）

来解决这个问题，以便更好地理解它们是如何协同工作的

我已经用aggregate（）做了很多尝试和错误，但我不明白如何构造lambda函数来计算最大值