Python 当每一行只包含一个稀疏向量时，求一个大规模pyspark数据帧的所有行的平均值_Python_Pyspark_Apache Spark Mllib

Python 当每一行只包含一个稀疏向量时，求一个大规模pyspark数据帧的所有行的平均值

python pyspark

Python 当每一行只包含一个稀疏向量时，求一个大规模pyspark数据帧的所有行的平均值,python,pyspark,apache-spark-mllib,Python,Pyspark,Apache Spark Mllib,我有一个有1500万行和一列的pyspark数据框架。每行包含一个稀疏向量（Vectors.sparsefrompyspark.ml.linalg）x（向量大小为5000）我想得到一个稠密向量，包含每行中所有稀疏向量的平均值我尝试了以下方法： from pyspark.ml.stat import Summarizer result = df.select(Summarizer.mean(df.x)).show(truncate=False) 但要花几个小时如果每一行只包含一个稀疏向量

我有一个有1500万行和一列的pyspark数据框架。每行包含一个稀疏向量（

Vectors.sparse

from

pyspark.ml.linalg

）

（向量大小为5000）

我想得到一个稠密向量，包含每行中所有稀疏向量的平均值

我尝试了以下方法：

from pyspark.ml.stat import Summarizer
result = df.select(Summarizer.mean(df.x)).show(truncate=False)

但要花几个小时

如果每一行只包含一个稀疏向量，是否有一种有效的方法来平均数据帧的所有行