Python pyspark中用于RDD对象的方法

Python pyspark中用于RDD对象的方法,python,numpy,apache-spark,pyspark,Python,Numpy,Apache Spark,Pyspark,我是Pypark的初学者。我使用它是因为我必须在大数据上运行我的算法,并实时得出结果。因此,我从一个pythonnumpy数组中创建了一个RDD对象,比如X by 现在我得到了一个错误,如果我使用numpy的方法,比如说shape,那么它通过显示 “'RDD'对象没有属性'shape'”。在numpy数组中还有其他方法,我不能在这里应用。所以我认为RDD中应该有类似于numpy数组方法的替代方法。你能给我一些资源吗?我在哪里可以学习这些方法。感谢阅读。Numpy阵列和RDD是不同的。Numpy阵

我是Pypark的初学者。我使用它是因为我必须在大数据上运行我的算法,并实时得出结果。因此,我从一个pythonnumpy数组中创建了一个RDD对象,比如X by

现在我得到了一个错误,如果我使用numpy的方法,比如说shape,那么它通过显示
“'RDD'对象没有属性'shape'”。在numpy数组中还有其他方法,我不能在这里应用。所以我认为RDD中应该有类似于numpy数组方法的替代方法。你能给我一些资源吗?我在哪里可以学习这些方法。感谢阅读。

Numpy阵列和RDD是不同的。Numpy阵列驻留在运行时内存中,而RDD(弹性分布式数据集)驻留在Spark HDFS上,用于在分布式环境中并行有效地执行数据密集型操作

someRDD=sc.parallelize(numpyArray

将numpyArray转换为RDD,您将无法再在someRDD上使用numpy方法

但是,您可以使用spark文档中定义的操作实现类似的功能:

from pyspark import SparkContext , SparkConf
sc = SparkContext.getOrCreate()

X = sc.parallelize(X)