Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 滤波器重复元件_Scala_Apache Spark_Rdd - Fatal编程技术网

Scala 滤波器重复元件

Scala 滤波器重复元件,scala,apache-spark,rdd,Scala,Apache Spark,Rdd,我正在使用一个巨大的RDD,我想按照一个规则对它进行过滤。我有一个包含两个元素的RDD,我不介意因子的顺序,所以我可以过滤它,以便删除那些重复的对 我的输入数据如下所示: {{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}} 过滤后的输出RDD应该是: {{A,B},{A,C},{B,C}} 提前谢谢。我将对RDD应用.map步骤,对元组中的元素进行排序。使[(A,C)、(C,A)]变为[(A,C)、(A,C)] 之后,您可以执行.distinct操作以获得所有唯一值

我正在使用一个巨大的RDD,我想按照一个规则对它进行过滤。我有一个包含两个元素的RDD,我不介意因子的顺序,所以我可以过滤它,以便删除那些重复的

我的输入数据如下所示:

{{A,B},{A,C},{B,A},{B,C},{C,A},{C,B}} 
过滤后的输出RDD应该是:

{{A,B},{A,C},{B,C}}

提前谢谢。

我将对RDD应用.map步骤,对元组中的元素进行排序。使[(A,C)、(C,A)]变为[(A,C)、(A,C)]


之后,您可以执行.distinct操作以获得所有唯一值。

您能给我一些线索吗?我必须对RDD应用笛卡尔函数才能做到这一点吗?
val newRdd=oldRdd.map(myValue=>{myValue/*在这里应用自定义排序逻辑*/})。distinct
只需映射和distinct运算符。。。不需要笛卡尔的任何东西。