Python 3.x 从pyspark数据帧获取多个(100+;)列的空计数、最小值和最大值的最佳方法

Python 3.x 从pyspark数据帧获取多个(100+;)列的空计数、最小值和最大值的最佳方法,python-3.x,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Python 3.x,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,假设我有一个列名列表,它们都存在于数据框中 Cols = ['A', 'B', 'C', 'D'], 我正在寻找一种快速的方法来获得像这样的表/数据帧 NA_counts min max A 5 0 100 B 10 0 120 C 8 1 99 D 2 0 500 TIA您可以单独计算每个指标,然后按如下方式合并: nulls_cols =

假设我有一个列名列表,它们都存在于数据框中

Cols = ['A', 'B', 'C', 'D'],
我正在寻找一种快速的方法来获得像这样的表/数据帧

     NA_counts min     max
A        5      0      100
B        10     0      120
C        8      1      99
D        2      0      500

TIA

您可以单独计算每个指标,然后按如下方式合并:

nulls_cols = [sum(when(col(c).isNull(), lit(1)).otherwise(lit(0))).alias(c) for c in cols]
max_cols = [max(col(c)).alias(c) for c in cols]
min_cols = [min(col(c)).alias(c) for c in cols]

nulls_df = df.select(lit("NA_counts").alias("count"), *nulls_cols)
max_df = df.select(lit("Max").alias("count"), *max_cols)
min_df = df.select(lit("Min").alias("count"), *min_cols)

nulls_df.unionAll(max_df).unionAll(min_df).show()
输出示例:

+---------+---+---+----+----+
|    count|  A|  B|   C|   D|
+---------+---+---+----+----+
|NA_counts|  1|  0|   3|   1|
|      Max|  9|  5|Test|2017|
|      Min|  1|  0|Test|2010|
+---------+---+---+----+----+