Python pyspark中用于RDD对象的方法_Python_Numpy_Apache Spark_Pyspark

Python pyspark中用于RDD对象的方法

python numpy apache-spark pyspark

Python pyspark中用于RDD对象的方法,python,numpy,apache-spark,pyspark,Python,Numpy,Apache Spark,Pyspark,我是Pypark的初学者。我使用它是因为我必须在大数据上运行我的算法，并实时得出结果。因此，我从一个pythonnumpy数组中创建了一个RDD对象，比如X by 现在我得到了一个错误，如果我使用numpy的方法，比如说shape，那么它通过显示 “'RDD'对象没有属性'shape'”。在numpy数组中还有其他方法，我不能在这里应用。所以我认为RDD中应该有类似于numpy数组方法的替代方法。你能给我一些资源吗？我在哪里可以学习这些方法。感谢阅读。Numpy阵列和RDD是不同的。Numpy阵

我是Pypark的初学者。我使用它是因为我必须在大数据上运行我的算法，并实时得出结果。因此，我从一个pythonnumpy数组中创建了一个RDD对象，比如X by

现在我得到了一个错误，如果我使用numpy的方法，比如说shape，那么它通过显示

“'RDD'对象没有属性'shape'”。在numpy数组中还有其他方法，我不能在这里应用。所以我认为RDD中应该有类似于numpy数组方法的替代方法。你能给我一些资源吗？我在哪里可以学习这些方法。感谢阅读。

Numpy阵列和RDD是不同的。Numpy阵列驻留在运行时内存中，而RDD（弹性分布式数据集）驻留在Spark HDFS上，用于在分布式环境中并行有效地执行数据密集型操作

someRDD=sc.parallelize（numpyArray

）

将numpyArray转换为RDD，您将无法再在someRDD上使用numpy方法

但是，您可以使用spark文档中定义的操作实现类似的功能：

from pyspark import SparkContext , SparkConf
sc = SparkContext.getOrCreate()

X = sc.parallelize(X)