pyspark:groupby和aggregate avg以及多列上的first_Pyspark_Apache Spark Sql

pyspark:groupby和aggregate avg以及多列上的first

pyspark

pyspark:groupby和aggregate avg以及多列上的first,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我有一个pyspark dataframe示例，在groupby之后，我想计算平均值，在多个列中的第一列，在实际情况中，我有100个列，所以我不能单独计算 sp = spark.createDataFrame([['a',2,4,'cc','anc'], ['a',4,7,'cd','abc'], ['b',6,0,'as','asd'], ['b', 2, 4, 'ad','acb'], ['c', 4, 4, 'sd','acc']], ['i

我有一个pyspark dataframe示例，在groupby之后，我想计算平均值，在多个列中的第一列，在实际情况中，我有100个列，所以我不能单独计算

sp = spark.createDataFrame([['a',2,4,'cc','anc'], ['a',4,7,'cd','abc'], ['b',6,0,'as','asd'], ['b', 2, 4, 'ad','acb'],
                        ['c', 4, 4, 'sd','acc']], ['id', 'col1', 'col2','col3', 'col4'])

+---+----+----+----+----+
| id|col1|col2|col3|col4|
+---+----+----+----+----+
|  a|   2|   4|  cc| anc|
|  a|   4|   7|  cd| abc|
|  b|   6|   0|  as| asd|
|  b|   2|   4|  ad| acb|
|  c|   4|   4|  sd| acc|
+---+----+----+----+----+

这就是我正在尝试的

mean_cols = ['col1', 'col2']
first_cols = ['col3', 'col4']
sc.groupby('id').agg(*[ f.mean for col in mean_cols], *[f.first for col in first_cols])

但它不起作用。如何使用pyspark实现这种功能多列上的多个函数的最佳方式是使用.agg（*expr）格式

结果将是

tst_r.show()
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+
|col4|min_col1|min_col2|min_col3|max_col1|max_col2|max_col3|mean_col1|mean_col2|mean_col3|first_col1|first_col2|first_col3|
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+
|   5|       5|       6|       7|       7|       8|       9|      6.0|      7.0|      8.0|         5|         6|         7|
|   4|       1|       2|       3|       3|       4|       5|      2.0|      3.0|      4.0|         1|         2|         3|
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+

对于在列上选择性地应用函数，可以使用多个表达式数组并在聚合中连接它们

fn_l = [F.min,F.max]
fn_2=[F.mean,F.first]
col_l=['col1','col2']
col_2=['col1','col3','col4']
expr1 = [fn(coln).alias(str(fn.__name__)+'_'+str(coln)) for fn in fn_l for coln in col_l]
expr2 = [fn(coln).alias(str(fn.__name__)+'_'+str(coln)) for fn in fn_2 for coln in col_2]
tst_r = tst.groupby('col4').agg(*(expr1+expr2))

对于多列上的多个函数，最好的方法是使用.agg（*expr）格式

结果将是

tst_r.show()
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+
|col4|min_col1|min_col2|min_col3|max_col1|max_col2|max_col3|mean_col1|mean_col2|mean_col3|first_col1|first_col2|first_col3|
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+
|   5|       5|       6|       7|       7|       8|       9|      6.0|      7.0|      8.0|         5|         6|         7|
|   4|       1|       2|       3|       3|       4|       5|      2.0|      3.0|      4.0|         1|         2|         3|
+----+--------+--------+--------+--------+--------+--------+---------+---------+---------+----------+----------+----------+

对于在列上选择性地应用函数，可以使用多个表达式数组并在聚合中连接它们

fn_l = [F.min,F.max]
fn_2=[F.mean,F.first]
col_l=['col1','col2']
col_2=['col1','col3','col4']
expr1 = [fn(coln).alias(str(fn.__name__)+'_'+str(coln)) for fn in fn_l for coln in col_l]
expr2 = [fn(coln).alias(str(fn.__name__)+'_'+str(coln)) for fn in fn_2 for coln in col_2]
tst_r = tst.groupby('col4').agg(*(expr1+expr2))

如果您没有在聚合函数中调用列名，可以尝试

f.mean（col）

而不是

f.mean

，它可以

sp.groupBy（'id'）.agg（*[f.mean（col）表示平均值中的col]，*[f.first（col）表示第一列中的col]）。show（）

您没有在聚合函数中调用列名，您可以尝试

f.mean（col）

而不是

f.mean

，它可以

sp.groupBy（'id'）.agg（*[f.mean（col）代表col in mean_cols]，*[f.first（col）代表col in first_cols]）。show（）

在您的解决方案中，您正在对所有列应用所有函数，但我特别希望在少数列上使用很少的函数，我怎么能用它来做呢expr@ManuSharma-已更新答案，检查其是否有效。您可以定义多个数组并在agg表达式中连接它们高兴地听到：-）在您的解决方案中，您在所有列上应用了所有函数，但我希望在少数列上使用很少的函数，具体来说，如何使用expr@ManuSharma-已更新答案，检查其是否有效。您可以定义多个数组并在agg表达式中连接它们高兴地听到：-）