如何在RDD scala中过滤重复项？_Scala_Apache Spark_Filter_Rdd

如何在RDD scala中过滤重复项？

scala apache-spark filter

如何在RDD scala中过滤重复项？,scala,apache-spark,filter,rdd,Scala,Apache Spark,Filter,Rdd,我有一个具有不同字段的rdd，即a、b、c、d。我想筛选其中一个字段，该字段中有重复的值。比如说 inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)] resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)] 是否有一个功能，我可以申请这样做差不多 resultRDD = inputRdd

我有一个具有不同字段的rdd，即a、b、c、d。我想筛选其中一个字段，该字段中有重复的值。比如说

inputRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7), (3,5,6,7), (9,1,5,6)]

resultRdd = [(1,2,3,4), (1,2,4,5), (2,3,4,5), (2,6,4,8), (2,0,3,7)]

是否有一个功能，我可以申请这样做

差不多

resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))

（3,5,6,7），（9,1,5,6）个副本怎么样？@Lars Skaug这只是我的输入。我在我的resultRdd中遗漏了这些。请定义一个副本，并根据您提供的数据使用代表性数据和预期结果更新您的帖子。关于

inpurdd.distinct

？我不想要distinct。我希望在第一个位置重复元素。