Python 3.x pyspark计算一行中所有列的平均值

Python 3.x pyspark计算一行中所有列的平均值,python-3.x,pyspark,mean,Python 3.x,Pyspark,Mean,我想计算每列的平均值,而不指定所有列的名称 因此,例如,不要做: res = df.select([mean('col1'), mean('col2')]) 我想做一些相当于: res = df.select([mean('*')]) 那可能吗?你可以通过 res=df.select(*[f.mean(c).df.columns中c的别名(c)]) df.select的可能重复项(*[df.columns中c的平均值(c).别名(c))谢谢@pault。我不确定它是否完全重复,但也许你能比我

我想计算每列的平均值,而不指定所有列的名称

因此,例如,不要做:

res = df.select([mean('col1'), mean('col2')])
我想做一些相当于:

res = df.select([mean('*')])
那可能吗?

你可以通过

res=df.select(*[f.mean(c).df.columns中c的别名(c)])

df.select的可能重复项(*[df.columns中c的平均值(c).别名(c))谢谢@pault。我不确定它是否完全重复,但也许你能比我看得更清楚:)使用列表理解将函数应用于每一列的一般概念是重复的。我会看看是否有时间更新链接的Q&A,使其更通用。@cph\u sto,即解压列表,将每个列表达式作为参数传入。