Python 3.x pyspark计算一行中所有列的平均值_Python 3.x_Pyspark_Mean

Python 3.x pyspark计算一行中所有列的平均值

python-3.x pyspark

Python 3.x pyspark计算一行中所有列的平均值,python-3.x,pyspark,mean,Python 3.x,Pyspark,Mean,我想计算每列的平均值，而不指定所有列的名称因此，例如，不要做： res = df.select([mean('col1'), mean('col2')]) 我想做一些相当于： res = df.select([mean('*')]) 那可能吗？你可以通过 res=df.select（*[f.mean（c）.df.columns中c的别名（c）]） df.select的可能重复项（*[df.columns中c的平均值（c）.别名（c））谢谢@pault。我不确定它是否完全重复，但也许你能比我

我想计算每列的平均值，而不指定所有列的名称

因此，例如，不要做：

res = df.select([mean('col1'), mean('col2')])

我想做一些相当于：

res = df.select([mean('*')])

那可能吗？

你可以通过

res=df.select（*[f.mean（c）.df.columns中c的别名（c）]）

df.select的可能重复项（*[df.columns中c的平均值（c）.别名（c））谢谢@pault。我不确定它是否完全重复，但也许你能比我看得更清楚：）使用列表理解将函数应用于每一列的一般概念是重复的。我会看看是否有时间更新链接的Q&A，使其更通用。@cph\u sto，即解压列表，将每个列表达式作为参数传入。