Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ruby-on-rails/59.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在Spark(Python)Google Cloud中计算海量数据的协方差矩阵?_Apache Spark_Pyspark_Google Cloud Storage_Google Cloud Dataproc - Fatal编程技术网

Apache spark 在Spark(Python)Google Cloud中计算海量数据的协方差矩阵?

Apache spark 在Spark(Python)Google Cloud中计算海量数据的协方差矩阵?,apache-spark,pyspark,google-cloud-storage,google-cloud-dataproc,Apache Spark,Pyspark,Google Cloud Storage,Google Cloud Dataproc,我有1000个因子的样本。每个因素都存储在单独的文件中。因此,有1000个文件,每个文件包含1M个双文件。如果A是数据矩阵,d=1000行,n=1M列 我需要计算C=A*转置(A),这是一个d*d矩阵 我不知道使用pySpark和google cloud(数据存储在那里)计算C的有效方法。这个问题可能与GCP本身无关,但我建议您尝试使用GPU进行矩阵计算。在GCP中,您可以在创建集群时向集群添加GPU。

我有1000个因子的样本。每个因素都存储在单独的文件中。因此,有1000个文件,每个文件包含1M个双文件。如果A是数据矩阵,d=1000行,n=1M列

我需要计算C=A*转置(A),这是一个d*d矩阵


我不知道使用pySpark和google cloud(数据存储在那里)计算C的有效方法。

这个问题可能与GCP本身无关,但我建议您尝试使用GPU进行矩阵计算。在GCP中,您可以在创建集群时向集群添加GPU。