Python 为什么PySpark中的agg()一次只能汇总一列?
对于下面的数据帧Python 为什么PySpark中的agg()一次只能汇总一列?,python,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,对于下面的数据帧 df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High']) 当我试图找到最小值和最大值时,我只得到输出中的最小值 df.agg({'High':'max','High':'min'}).show() +-----------+ |最低(高)| +-----------+ | 2094900| +-----------+ 为什么agg()不能像Pandas一
df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High'])
当我试图找到最小值和最大值时,我只得到输出中的最小值
df.agg({'High':'max','High':'min'}).show()
+-----------+
|最低(高)|
+-----------+
| 2094900|
+-----------+
为什么agg()不能像Pandas一样同时提供最大和最小值?如您所见:
agg(*exprs)
计算聚合并将结果作为数据帧返回
可用的聚合函数有avg、max、min、sum、count
如果exprs是从字符串到字符串的单个dict映射,则键是要执行聚合的列,值是聚合函数
或者,expr也可以是聚合列表达式的列表
参数:exprs–从列名(字符串)到聚合函数(字符串)或列列表的dict映射
您可以使用列列表并在每列上应用所需的函数,如下所示:
>>> from pyspark.sql import functions as F
>>> df.agg(F.min(df.High),F.max(df.High),F.avg(df.High),F.sum(df.High)).show()
+---------+---------+---------+---------+
|min(High)|max(High)|avg(High)|sum(High)|
+---------+---------+---------+---------+
| 4.3| 7.677| 5.9885| 11.977|
+---------+---------+---------+---------+
这在Spark 2.4和Python 3.2的Databricks中不适用。如果有人仍然想知道为什么agg()不能在Pandas中同时提供max和min?因为pandas和pyspark中的agg()都接受字典,而且我们知道字典不能有多个同名键,因此
df.agg({'High':'max','High':'min'})。show()
实际上是df.agg({'High':'min'})。show()
因为'High':'max'
被重写为'High':'min'
CONTD:pandas中的语法将是df.agg({'High':{'min(High)'np.min',max(High):np.max})