numpy数组是在spark驱动程序还是executor上创建的？_Numpy_Apache Spark_Pyspark

numpy数组是在spark驱动程序还是executor上创建的？

numpy apache-spark pyspark

numpy数组是在spark驱动程序还是executor上创建的？,numpy,apache-spark,pyspark,Numpy,Apache Spark,Pyspark,在spark cluster上运行numpy阵列时，我不知道它是在哪里创建的： a = np.zeros((100, 100), dtype="byte") 我觉得应该在驱动程序上创建它。但如果是这样的话，我们如何利用spark的分布式计算能力，换句话说，如果spark不能分布式，为什么我们需要在其上使用numpy？答案是否定的。如果数据超出内存限制，numpy会将数据拉入驱动程序，并可能导致OOM

在spark cluster上运行numpy阵列时，我不知道它是在哪里创建的：

a = np.zeros((100, 100), dtype="byte")

我觉得应该在驱动程序上创建它。但如果是这样的话，我们如何利用spark的分布式计算能力，换句话说，如果spark不能分布式，为什么我们需要在其上使用

numpy

？

答案是否定的。如果数据超出内存限制，numpy会将数据拉入驱动程序，并可能导致OOM