Pyspark-通过忽略空值计算组后的最小值
我想对一个数据集进行分组,并为每个组计算变量的最小值,忽略空值。例如:Pyspark-通过忽略空值计算组后的最小值,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想对一个数据集进行分组,并为每个组计算变量的最小值,忽略空值。例如: NAME | COUNTRY | AGE Marc | France | 20 Anne | France | null Claire | France | 18 Harry | USA | 20 David | USA | null George | USA | 28 如果我计算 from pyspark.sql import functions as F m
NAME | COUNTRY | AGE
Marc | France | 20
Anne | France | null
Claire | France | 18
Harry | USA | 20
David | USA | null
George | USA | 28
如果我计算
from pyspark.sql import functions as F
min_values = data.groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))
我得到
COUNTRY | MIN_AGE
France null
USA null
而不是
COUNTRY | MIN_AGE
France 18
USA 20
你知道怎么修吗?多谢各位 您可以删除na值:
min_values = data.na.drop().groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))
但是如果我还需要在其他列上返回其他聚合函数呢?这将删除列中至少有一个na的行?