Apache spark 如何在python中将操作输出保存在变量或RDD中_Apache Spark_Pyspark

Apache spark 如何在python中将操作输出保存在变量或RDD中

apache-spark pyspark

Apache spark 如何在python中将操作输出保存在变量或RDD中,apache-spark,pyspark,Apache Spark,Pyspark,我不熟悉spark并使用python实现它。我有一个问题集，需要将文件的第一行存储在RDD中，然后对其进行更多转换。所以我试着用first（）操作，但是使用first（）操作，它只是在屏幕上显示输出，但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中？第一个（）应该在RDD上执行（而不是在文件上）假设您有一个RDD开始，那么“first（）”和“take（1）”都应该可以工作 myvar1 = myRDD.take(1) myvar2 = myRDD

我不熟悉spark并使用python实现它。我有一个问题集，需要将文件的第一行存储在RDD中，然后对其进行更多转换。所以我试着用first（）操作，但是使用first（）操作，它只是在屏幕上显示输出，但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中？

第一个（）应该在RDD上执行（而不是在文件上）

假设您有一个RDD开始，那么“first（）”和“take（1）”都应该可以工作

myvar1 = myRDD.take(1)
myvar2 = myRDD.first()

取（num）

以RDD的第一个num元素为例

它的工作原理是首先扫描一个分区，然后使用该分区的结果来估计满足该限制所需的额外分区的数量

请注意，仅当预期生成的数组很小时才应使用此方法，因为所有数据都加载到驱动程序的内存中

>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)
[2, 3]
>>> sc.parallelize([2, 3, 4, 5, 6]).take(10)
[2, 3, 4, 5, 6]

first（）

返回此RDD中的第一个元素

>>> sc.parallelize([2, 3, 4]).first()
2