Pyspark-通过忽略空值计算组后的最小值

Pyspark-通过忽略空值计算组后的最小值,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想对一个数据集进行分组,并为每个组计算变量的最小值,忽略空值。例如: NAME | COUNTRY | AGE Marc | France | 20 Anne | France | null Claire | France | 18 Harry | USA | 20 David | USA | null George | USA | 28 如果我计算 from pyspark.sql import functions as F m

我想对一个数据集进行分组,并为每个组计算变量的最小值,忽略空值。例如:

NAME   | COUNTRY | AGE
Marc   | France  | 20
Anne   | France  | null
Claire | France  | 18
Harry  | USA     | 20
David  | USA     | null
George | USA     | 28
如果我计算

    from pyspark.sql import functions as F
    min_values = data.groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))
我得到

   COUNTRY | MIN_AGE
   France    null
   USA       null
而不是

   COUNTRY | MIN_AGE
   France    18
   USA       20

你知道怎么修吗?多谢各位

您可以删除na值:

min_values = data.na.drop().groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))

但是如果我还需要在其他列上返回其他聚合函数呢?这将删除列中至少有一个na的行?