Apache spark pyspark中agg(sqlmax)和agg(max)之间的差异
在pyspark程序中,我阅读了以下代码行。这条路线到底想达到什么目的?pyspark中的Apache spark pyspark中agg(sqlmax)和agg(max)之间的差异,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,在pyspark程序中,我阅读了以下代码行。这条路线到底想达到什么目的?pyspark中的sqlmax和max有什么区别 df.groupBy('groupId').agg(sqlmax('Time').alias('MaxTime')).withColumnRenamed('groupid1','groupid2') 我猜sqlmax是作为 from pyspark.sql.functions import max as sqlmax 如果代码的作者希望避免覆盖Pythonmax函数,那么
sqlmax
和max
有什么区别
df.groupBy('groupId').agg(sqlmax('Time').alias('MaxTime')).withColumnRenamed('groupid1','groupid2')
我猜
sqlmax
是作为
from pyspark.sql.functions import max as sqlmax
如果代码的作者希望避免覆盖Pythonmax
函数,那么哪种方法是有意义的。不能在agg
中使用Pythonmax
,但可以使用Spark SQLmax
聚合
写这篇文章的一种可能更常见的方法是
import pyspark.sql.functions as F
df.groupBy('groupId').agg(F.max('Time').alias('MaxTime'))