Pyspark-通过忽略空值计算组后的最小值_Pyspark_Pyspark Sql

Pyspark-通过忽略空值计算组后的最小值

pyspark

Pyspark-通过忽略空值计算组后的最小值,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我想对一个数据集进行分组，并为每个组计算变量的最小值，忽略空值。例如： NAME | COUNTRY | AGE Marc | France | 20 Anne | France | null Claire | France | 18 Harry | USA | 20 David | USA | null George | USA | 28 如果我计算 from pyspark.sql import functions as F m

我想对一个数据集进行分组，并为每个组计算变量的最小值，忽略空值。例如：

NAME   | COUNTRY | AGE
Marc   | France  | 20
Anne   | France  | null
Claire | France  | 18
Harry  | USA     | 20
David  | USA     | null
George | USA     | 28

如果我计算

    from pyspark.sql import functions as F
    min_values = data.groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))

我得到

   COUNTRY | MIN_AGE
   France    null
   USA       null

而不是

   COUNTRY | MIN_AGE
   France    18
   USA       20

你知道怎么修吗？多谢各位

您可以删除na值：

min_values = data.na.drop().groupBy("COUNTRY").agg(F.min("AGE").alias("MIN_AGE"))

但是如果我还需要在其他列上返回其他聚合函数呢？这将删除列中至少有一个na的行？