如何在Spark RDD(Java)而不是scala、python中通过索引获取元素
我知道方法如何在Spark RDD(Java)而不是scala、python中通过索引获取元素,java,python,apache-spark,pyspark,rdd,Java,Python,Apache Spark,Pyspark,Rdd,我知道方法rdd.first(),它给了我rdd中的第一个元素 另外,还有方法rdd.take(num),它给出了第一个num元素 但是,是否有可能通过索引获取元素?RDD没有索引,在大多数情况下,RDD不能保证顺序,也不支持有效的单个项目访问 你可以 zipWithIndex和filter zipWithIndex,交换元素和查找 但这是不建议的,需要线性扫描,并且可能具有不确定性行为。对于分布式处理系统来说,顺序并不重要。
rdd.first()
,它给了我rdd
中的第一个元素
另外,还有方法rdd.take(num)
,它给出了第一个num
元素
但是,是否有可能通过索引获取元素?RDD没有索引,在大多数情况下,RDD不能保证顺序,也不支持有效的单个项目访问 你可以
和zipWithIndex
filter
,交换元素和zipWithIndex
查找
但这是不建议的,需要线性扫描,并且可能具有不确定性行为。对于分布式处理系统来说,顺序并不重要。