Python 当每一行只包含一个稀疏向量时,求一个大规模pyspark数据帧的所有行的平均值

Python 当每一行只包含一个稀疏向量时,求一个大规模pyspark数据帧的所有行的平均值,python,pyspark,apache-spark-mllib,Python,Pyspark,Apache Spark Mllib,我有一个有1500万行和一列的pyspark数据框架。 每行包含一个稀疏向量(Vectors.sparsefrompyspark.ml.linalg)x(向量大小为5000) 我想得到一个稠密向量,包含每行中所有稀疏向量的平均值 我尝试了以下方法: from pyspark.ml.stat import Summarizer result = df.select(Summarizer.mean(df.x)).show(truncate=False) 但要花几个小时 如果每一行只包含一个稀疏向量

我有一个有1500万行和一列的pyspark数据框架。 每行包含一个稀疏向量(
Vectors.sparse
from
pyspark.ml.linalg
x
(向量大小为5000)

我想得到一个稠密向量,包含每行中所有稀疏向量的平均值

我尝试了以下方法:

from pyspark.ml.stat import Summarizer
result = df.select(Summarizer.mean(df.x)).show(truncate=False)
但要花几个小时

如果每一行只包含一个稀疏向量,是否有一种有效的方法来平均数据帧的所有行