Apache spark 在Spark（Python）Google Cloud中计算海量数据的协方差矩阵？_Apache Spark_Pyspark_Google Cloud Storage_Google Cloud Dataproc

Apache spark 在Spark（Python）Google Cloud中计算海量数据的协方差矩阵？

apache-spark pyspark google-cloud-storage

Apache spark 在Spark（Python）Google Cloud中计算海量数据的协方差矩阵？,apache-spark,pyspark,google-cloud-storage,google-cloud-dataproc,Apache Spark,Pyspark,Google Cloud Storage,Google Cloud Dataproc,我有1000个因子的样本。每个因素都存储在单独的文件中。因此，有1000个文件，每个文件包含1M个双文件。如果A是数据矩阵，d=1000行，n=1M列我需要计算C=A*转置（A），这是一个d*d矩阵我不知道使用pySpark和google cloud（数据存储在那里）计算C的有效方法。这个问题可能与GCP本身无关，但我建议您尝试使用GPU进行矩阵计算。在GCP中，您可以在创建集群时向集群添加GPU。

我有1000个因子的样本。每个因素都存储在单独的文件中。因此，有1000个文件，每个文件包含1M个双文件。如果A是数据矩阵，d=1000行，n=1M列

我需要计算C=A*转置（A），这是一个d*d矩阵

我不知道使用pySpark和google cloud（数据存储在那里）计算C的有效方法。

这个问题可能与GCP本身无关，但我建议您尝试使用GPU进行矩阵计算。在GCP中，您可以在创建集群时向集群添加GPU。