Apache spark 如何在python中将操作输出保存在变量或RDD中
我不熟悉spark并使用python实现它。我有一个问题集,需要将文件的第一行存储在RDD中,然后对其进行更多转换。所以我试着用first()操作,但是使用first()操作,它只是在屏幕上显示输出,但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中?第一个()应该在RDD上执行(而不是在文件上) 假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作Apache spark 如何在python中将操作输出保存在变量或RDD中,apache-spark,pyspark,Apache Spark,Pyspark,我不熟悉spark并使用python实现它。我有一个问题集,需要将文件的第一行存储在RDD中,然后对其进行更多转换。所以我试着用first()操作,但是使用first()操作,它只是在屏幕上显示输出,但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中?第一个()应该在RDD上执行(而不是在文件上) 假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作 myvar1 = myRDD.take(1) myvar2 = myRDD
myvar1 = myRDD.take(1)
myvar2 = myRDD.first()
取(num)
以RDD的第一个num元素为例
它的工作原理是首先扫描一个分区,然后使用该分区的结果来估计满足该限制所需的额外分区的数量
请注意,仅当预期生成的数组很小时才应使用此方法,因为所有数据都加载到驱动程序的内存中
>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)
[2, 3]
>>> sc.parallelize([2, 3, 4, 5, 6]).take(10)
[2, 3, 4, 5, 6]
first()
返回此RDD中的第一个元素
>>> sc.parallelize([2, 3, 4]).first()
2
第一个()应该在RDD上执行(而不是在文件上)
假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作
myvar1 = myRDD.take(1)
myvar2 = myRDD.first()
取(num)
以RDD的第一个num元素为例
它的工作原理是首先扫描一个分区,然后使用该分区的结果来估计满足该限制所需的额外分区的数量
请注意,仅当预期生成的数组很小时才应使用此方法,因为所有数据都加载到驱动程序的内存中
>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)
[2, 3]
>>> sc.parallelize([2, 3, 4, 5, 6]).take(10)
[2, 3, 4, 5, 6]
first()
返回此RDD中的第一个元素
>>> sc.parallelize([2, 3, 4]).first()
2