如何在RDD scala中过滤重复项?
我有一个具有不同字段的rdd,即a、b、c、d。我想筛选其中一个字段,该字段中有重复的值。 比如说如何在RDD scala中过滤重复项?,scala,apache-spark,filter,rdd,Scala,Apache Spark,Filter,Rdd,我有一个具有不同字段的rdd,即a、b、c、d。我想筛选其中一个字段,该字段中有重复的值。 比如说 inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)] resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)] 是否有一个功能,我可以申请这样做 差不多 resultRDD = inputRdd
inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]
resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]
是否有一个功能,我可以申请这样做
差不多
resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))
(3,5,6,7),(9,1,5,6)个副本怎么样?@Lars Skaug这只是我的输入。我在我的resultRdd中遗漏了这些。请定义一个副本,并根据您提供的数据使用代表性数据和预期结果更新您的帖子。关于
inpurdd.distinct
?我不想要distinct。我希望在第一个位置重复元素。