Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在python中将操作输出保存在变量或RDD中_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 如何在python中将操作输出保存在变量或RDD中

Apache spark 如何在python中将操作输出保存在变量或RDD中,apache-spark,pyspark,Apache Spark,Pyspark,我不熟悉spark并使用python实现它。我有一个问题集,需要将文件的第一行存储在RDD中,然后对其进行更多转换。所以我试着用first()操作,但是使用first()操作,它只是在屏幕上显示输出,但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中?第一个()应该在RDD上执行(而不是在文件上) 假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作 myvar1 = myRDD.take(1) myvar2 = myRDD

我不熟悉spark并使用python实现它。我有一个问题集,需要将文件的第一行存储在RDD中,然后对其进行更多转换。所以我试着用first()操作,但是使用first()操作,它只是在屏幕上显示输出,但不能将其存储在另一个变量或RDD中。python中有没有办法将操作的输出存储在变量或RDD中?

第一个()应该在RDD上执行(而不是在文件上)

假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作

myvar1 = myRDD.take(1)
myvar2 = myRDD.first()

取(num)

以RDD的第一个num元素为例

它的工作原理是首先扫描一个分区,然后使用该分区的结果来估计满足该限制所需的额外分区的数量

请注意,仅当预期生成的数组很小时才应使用此方法,因为所有数据都加载到驱动程序的内存中

>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)
[2, 3]
>>> sc.parallelize([2, 3, 4, 5, 6]).take(10)
[2, 3, 4, 5, 6]
first()

返回此RDD中的第一个元素

>>> sc.parallelize([2, 3, 4]).first()
2
第一个()应该在RDD上执行(而不是在文件上)

假设您有一个RDD开始,那么“first()”和“take(1)”都应该可以工作

myvar1 = myRDD.take(1)
myvar2 = myRDD.first()

取(num)

以RDD的第一个num元素为例

它的工作原理是首先扫描一个分区,然后使用该分区的结果来估计满足该限制所需的额外分区的数量

请注意,仅当预期生成的数组很小时才应使用此方法,因为所有数据都加载到驱动程序的内存中

>>> sc.parallelize([2, 3, 4, 5, 6]).cache().take(2)
[2, 3]
>>> sc.parallelize([2, 3, 4, 5, 6]).take(10)
[2, 3, 4, 5, 6]
first()

返回此RDD中的第一个元素

>>> sc.parallelize([2, 3, 4]).first()
2