Python 为什么PySpark中的agg（）一次只能汇总一列？_Python_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Sql

Python 为什么PySpark中的agg（）一次只能汇总一列？

python apache-spark pyspark

Python 为什么PySpark中的agg（）一次只能汇总一列？,python,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,对于下面的数据帧 df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High']) 当我试图找到最小值和最大值时，我只得到输出中的最小值 df.agg({'High':'max','High':'min'}).show() +-----------+ |最低（高）| +-----------+ | 2094900| +-----------+ 为什么agg（）不能像Pandas一

对于下面的数据帧

df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High'])

当我试图找到最小值和最大值时，我只得到输出中的最小值

df.agg({'High':'max','High':'min'}).show()

+-----------+
|最低（高）|
+-----------+
|    2094900|
+-----------+

为什么agg（）不能像Pandas一样同时提供最大和最小值？

如您所见：

agg（*exprs）

计算聚合并将结果作为数据帧返回

可用的聚合函数有avg、max、min、sum、count

如果exprs是从字符串到字符串的单个dict映射，则键是要执行聚合的列，值是聚合函数

或者，expr也可以是聚合列表达式的列表

参数：exprs–从列名（字符串）到聚合函数（字符串）或列列表的dict映射

您可以使用列列表并在每列上应用所需的函数，如下所示：

>>> from pyspark.sql import functions as F

>>> df.agg(F.min(df.High),F.max(df.High),F.avg(df.High),F.sum(df.High)).show()
+---------+---------+---------+---------+
|min(High)|max(High)|avg(High)|sum(High)|
+---------+---------+---------+---------+
|      4.3|    7.677|   5.9885|   11.977|
+---------+---------+---------+---------+

这在Spark 2.4和Python 3.2的Databricks中不适用。如果有人仍然想知道为什么agg（）不能在Pandas中同时提供max和min？因为pandas和pyspark中的agg（）都接受字典，而且我们知道字典不能有多个同名键，因此

df.agg（{'High'：'max'，'High'：'min'}）。show（）

实际上是

df.agg（{'High'：'min'}）。show（）

因为

'High'：'max'

被重写为

'High'：'min'

CONTD:pandas中的语法将是

df.agg（{'High'：{'min（High）'np.min'，max（High）:np.max}）