numpy数组是在spark驱动程序还是executor上创建的?

numpy数组是在spark驱动程序还是executor上创建的?,numpy,apache-spark,pyspark,Numpy,Apache Spark,Pyspark,在spark cluster上运行numpy阵列时,我不知道它是在哪里创建的: a = np.zeros((100, 100), dtype="byte") 我觉得应该在驱动程序上创建它。但如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,如果spark不能分布式,为什么我们需要在其上使用numpy?答案是否定的。如果数据超出内存限制,numpy会将数据拉入驱动程序,并可能导致OOM

在spark cluster上运行numpy阵列时,我不知道它是在哪里创建的:

a = np.zeros((100, 100), dtype="byte")

我觉得应该在驱动程序上创建它。但如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,如果spark不能分布式,为什么我们需要在其上使用
numpy

答案是否定的。如果数据超出内存限制,numpy会将数据拉入驱动程序,并可能导致OOM