Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在RDD scala中过滤重复项?_Scala_Apache Spark_Filter_Rdd - Fatal编程技术网

如何在RDD scala中过滤重复项?

如何在RDD scala中过滤重复项?,scala,apache-spark,filter,rdd,Scala,Apache Spark,Filter,Rdd,我有一个具有不同字段的rdd,即a、b、c、d。我想筛选其中一个字段,该字段中有重复的值。 比如说 inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)] resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)] 是否有一个功能,我可以申请这样做 差不多 resultRDD = inputRdd

我有一个具有不同字段的rdd,即a、b、c、d。我想筛选其中一个字段,该字段中有重复的值。 比如说

inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]

resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]
是否有一个功能,我可以申请这样做

差不多

resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))

(3,5,6,7),(9,1,5,6)个副本怎么样?@Lars Skaug这只是我的输入。我在我的resultRdd中遗漏了这些。请定义一个副本,并根据您提供的数据使用代表性数据和预期结果更新您的帖子。关于
inpurdd.distinct
?我不想要distinct。我希望在第一个位置重复元素。